机器学习---基本概念

最新推荐文章于 2020-01-10 17:26:52 发布

谁怕平生太急

最新推荐文章于 2020-01-10 17:26:52 发布

阅读量189

点赞数

分类专栏：阅读文章标签：机器学习基本概念

本文链接：https://blog.csdn.net/jinselizhi/article/details/100753722

版权

阅读专栏收录该内容

52 篇文章 1 订阅

订阅专栏

1 机器学习分为：监督学习，非监督学习

区别：数据有没有标签。

监督学习 : D =（X,y）
X 代表样本的特征。特征：用一些信息来表达样本
y 代表标签，如文本主题，情感类别等
任务：学习出 X -> y 的关系。
模型选择依据，关系线性与否等等
很多问题都属于监督学习的范畴。也是主要学习的重点。

无监督学习： D = （X）
任务：寻找 X 中的特征或者规律。
大量的样本，通过算法分析样本内部性质 ==> 分析型工作，几大类，适用于营销环境。
聚类，kmeans等

other：强化学习。如 AlphaGo。

2 监督学习的例子

人脸识别
语音识别
主题分类
目标检测
金融风控
情感分析
自动驾驶

3 无监督学习的例子

聚类 --> 样本归类
相似度高的样本规成一类。
经典案例（个性化营销）：按兴趣爱好进行用户分层。
K-means、 PCA降维…

4 常用的机器学习算法

监督学习：线性回归、逻辑回归、朴素贝叶斯、决策树、随机森林、SVM、神经网络
无监督学习：PCA、K-means、GMM、LDA…

线性回归：解决回归问题
逻辑回归：解决分类问题，建立在线性回归基础上，所以还是属于线性模型
朴素贝叶斯：适合文本分类问题
决策树：树状形式，贴合潜意识
随机森林：使用多棵决策树一起做决策，同样问题交给很多专家，然后将它们的答案整合起来
SVM：机器学习中稍难的算法，最短的距离最大化实现
神经网络：深度学习的一个最根本的基础，从感知机算法开始

PCA：经典降维算法，高维数据映射到低维空间 ==> 降噪，去除没用信息，数据可视化
K-means：样本聚类，发现类似的点聚到一起分析
GMM：跟K-means相关，K-means是GMM的特例，K-means假设一个物体只属于一个类。
LDA：主题模型，抽取主题特征时经常使用

GBDT：梯度提升树 mark：https://blog.csdn.net/zpalyq110/article/details/79527653
XGBoost ：Extreme Gradient Boosting. mark: https://blog.csdn.net/moledyzhang/article/details/79533808
…

5 回归与分类问题

区别：输出不同；
回归输出是连续性数值，如温度、身高、气温…
分类输出是定性输出，如阴晴、好坏…
类别没有大小关系存在
经典分类问题：图像识别，文本分类

6 特征与标签，样本

特征：描述数据的具体属性、信息；
标签：预测值
样本：每一组特征和标签的组合。

7 训练数据、验证数据、测试数据

训练数据：用来训练模型的数据，构建模型。
验证数据：用来评估训练过程中模型性能的数据，辅助模型构建，可重复使用。
测试数据：用来评估模型的数据，只在最后模型检验时使用，用于评估模型的准确率。
一般来说，验证数据的准确率如果高于训练数据，说明训练的模型欠拟合；反之，过拟合。

8 机器学习建模流程

（1）Data source：收集数据的策略，数据决定模型准确度，非常关键。
（2）数据预处理：降噪，大量不一致，字段不对齐，非常脏的活，但尤其重要。大量精力
（3）特征工程：意味着从样本中提取有价值的记号，又要尽量的保证特征之间的相对独立性；
不同应用场景设计的特征时不同的。大量精力。50-60%时间。
（4）建模：特征工程之后每个数据转换成了向量/矩阵/张量，可直接作为模型输入。
调参工作，使模型达到最优效果。
改造模型再调参。
（5）验证：视模型效果，决定是否回炉。
选择适用于该场景的评估指标：准确率，AUC，FS，KS值…
（6）上线/部署：评估指标OK才上线。

热点：能否跳过特征工程，直接到建模的阶段？
直接跳过特征工程的方法叫端到端的方法。这种方法基本集中在深度学习领域中，如语音识别、图像识别。
这种方法并不适合所有应用场景。

9 学习来源

http://aijiaoai.greedyai.com

谁怕平生太急

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习---基本概念

1 机器学习分为：监督学习，非监督学习区别：数据有没有标签。监督学习 : D =（X,y）X 代表样本的特征。特征：用一些信息来表达样本y 代表标签，如文本主题，情感类别等任务：学习出 X -> y 的关系。模型选择依据，关系线性与否等等很多问题都属于监督学习的范畴。也是主要学习的重点。无监督学习： D = （X）任务：寻找 X 中的特征或者规律。大量的样本，通过...
复制链接

扫一扫

专栏目录