机器学习可以分为监督学习和无监督学习两种。
1.监督学习
监督学习可以分为回归或者分类问题。
对于希望预测的值是连续值,一般是回归问题。
对于希望预测的值是离散值,一般是分类问题。
回归问题:线性回归等
分类问题:逻辑回归等
逻辑回归
下图所示是sigmod函数图,sigmod函数的输出在0-1之间,输出代表预测的概率。
如图所示是逻辑回归的梯度下降过程
多元分类
如图所示是多元分类的示意图,其中在进行多元分类时,将问题转换为二元分类问题。构建一个伪训练集,选择一类为正类,将剩余的样本作为负类。
最终在预测时,选择每一个分类器对应的正类的概率中最大的那个。
过拟合问题
对于过拟合问题,解决的方法有两种。
-
第一种是减少特征的数量
1)人工去选择一些特征去除
2)使用模型选择算法自动去选择特征 -
第二种方式是进行正则化
2.无监督学习
聚类算法
3.代价函数
机器学习的目的是更好的拟合数据,那么这里就需要使得代价函数变小,这样就可以去很好的拟合函数。
通过使得代价函数变小,我们可以一步步得到函数的参数值。
参数值的求解的两种方法,一种是梯度下降法,一种是正规方程法。
梯度下降法是通过朝着梯度下降最快的方向,一步步逼近代价函数的最低点。这个方法需要迭代。
正规方程法可以通过直接求解,来求取使得代价函数最小时的拟合函数的参数值。但是在遇到参数过多时不宜使用。
ps:使用正规方程法如果遇到XTX是不可逆的情况。
这里分为两种情况。第一种是选取的特征中存在线性相关的情况,也就是存在冗余特征,导致不可逆;第二种情况是选取的样本数远远小于特征的数量。