机器学习分类
(1)监督学习
数据集是有标签的,就是说对于给出的样本我们是知道答案的,我们大部分学到的模型都是属于这一类的,包括线性分类器、支持向量机等等;
(2)无监督学习
跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要label,比如著名的K-means算法就是无监督学习应用最广泛的算法;
(3)半监督学习
半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;
(4)强化学习
一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;
监督学习:分类、回归
1、回归问题 regression(输入、输出:连续值)
2、分类问题 classification(输入、输出:离散值)
训练集、测试集、验证集
过拟合
- 过拟合的特点:训练集错误率很低,测试集错误率很高,模型泛化能力差
解决过拟合的方法:
1)从简单的模型开始尝试;
2)数据预处理,数据清洗;
3)额外的数据;
4)正则化,regularization;
5)验证,validation;
正则化相当于给训练误差加了一个惩罚项,以防止过拟合的发生。
用的比较多的正则项是L1和L2
还有dropout、早停
正则化通过牺牲一定的训练集准确率而增加一定的泛化能力
交叉验证
最广泛的是V-fold cross validation,把数据集分成V份,每次拿出V-1作为训练集,而剩下的一份作为验证,通过V次的训练,把最后训练错误的平均值作为该模型的评价,然后选出最佳
梯度下降
梯度下降要同步更新
梯度下降的三种方式:
批梯度下降
随机梯度下降
小批量梯度下降