1.什么是机器学习
2.机器学习流程
3.算法分类
具体的机器学习算法多达几十种,在这里我们主要分为四种算法:
(1)监督学习(supervised learning)
算法中用于训练的数据都有特征值和目标值,模型的生成本质上为特征值和目标值的映射关系的形成。
(2)无监督学习(unsupervised learning)
没有确定的目标值,不依赖于打包数据的机器学习算法。多通过距离和密度等进行相关算法。
(3)半监督学习(semi-supervised learning)
监督算法的打标是一件费时费力的事情,半监督算法对于分类的算法有一定的难度,半监督学习通过对部分数据进行打标训练来生成模型。目前在许多场景下有广泛的应用。
(4)强化学习(reinforcement learning)
整个算法系统不断的与外界进行交互,取得反馈,根据反馈做出相应的决策。如阿尔法狗的算法等。
具体的分类如下:
<
监督学习 | k-紧邻、逻辑回归、随机森林、朴素贝叶斯、支持向量机(svm) |
非监督学习 | DBSCAN、协同过滤、LDA、K-means |
半监督学习 | 标签传播 |
强化学习 | 隐马尔科夫 |
4.一些基本概念
(1)过拟合(over-fitting)
在对训练数据进行训练时准确率很高,但在实际的应用中准确率却下降,迁移性较低。模型偏离真正模型,过度符合训练集,
(2)精确率(precision)、召回率(Recall)、F1值
- True Positive(真正, TP):将正类预测为正类数.
- True Negative(真负 , TN):将负类预测为负类数.
- False Positive(假正, FP):将负类预测为正类数
- False Negative(假负 , FN):将正类预测为负类数
精确率 = TP/(TP+FP)
召回率 = TP/(TP+FN)
F1值=2*精确率*召回率/(精确率+召回率)
精确率和覆盖度分别从不同的维度上对模型结果进行了评估,F1值则综合两者的准确性和覆盖度进行评估,是前两个指标的综合。
(3)ROC和AUC
如上图:fp值为横坐标,tp值为纵坐标,这个曲线称作ROC曲线,可以看出,图像越靠近左上角则模型的效果越好。
曲线与x轴所包含的面积成为AUC值,AUC值越大说明模型的拟合效果越好,AUC值在0--1之间,AUC值到达0.9以上时,说明这个模型的效果较好。