1.K-NN(k-近邻算法)
类别:监督学习,分类
流程:计算样本与训练数据的距离,统计前k个数据的标签,选择标签出现次数最多的为样本标签。
注意:数据需要归一化或标准化
2.决策树
类别:监督学习,分类
流程:依次选择信息增益最大的属性为决策属性构建决策树。
信息熵:
信息增益:
剪枝:避免过拟合,如果可以提高泛化能力将一些分支转化为页节点
3.回归
3.1线性回归
类别:监督学习,回归
损失:MSE(均方误差)
最小二乘法:
3.2 logistic回归(对数几率回归)
类别:监督学习,二分类
用线性模型去逼近真实数据标记的对数几率
可以使用极大似然法解决。
4.SVM(支持向量机)
类别:监督学习,二分类
公式:
拉格朗日数乘求解:
因为
所以
所以以下问题和原问题等价
对w和b求导并令其为零可得:
带入拉格朗日函数,并取负数,求解α使下式极小
且满足
可以使用现成的算法(SMO)来解上述的二次规划问题。
且纯在不等式约束需要满足KKT条件
那么对于支持向量,α大于0.对于非支持向量α=0;
则
软间隔:
核函数: