线性模型 线性模型 基本形式 线性回归 找到一个线性模型可以很好的描述输入与输出的关系 对离散属性,若存在序关系,可转化为连续值;若无关,可转化为k维向量 常使用均方误差(欧式距离)最小化来衡量预测与实际关系。 均方误差最小化的方式求解模型,即为最小二乘法,求解参数即为最小二乘参数估计 改变形式: 有对数线性回归,有线性的形式,实质为非线性 对数几率回归 这是分类模型,不仅能分类,还能得到近似概率 对数几率函数是一种Sigmoid函数 几率 == 比值(正例/反例) 参数可用极大似然法来估计 凸优化理论(数值优化算法如梯度下降法、牛顿法,可求最优解) 线性判别分析 LDA 将样本投影到一条直线上,使同类的聚集在一起,异类尽量分开 多分类学习 通过拆解法将多分类问题转化为多个二分类问题。 ovo,ovr,mvm,前面两种都是多对多的特殊形式 多对多分组时,可采取纠错输出码ECOC 类别不平衡问题 在正例反例数量相差巨大的情况下,(假设正例极多99%)若得到的模型只判断其为正例也可以得到99%的准确率,从而模型失去了意义。 处理方法: 欠采样:减少反例,EasyEnsemble,将反例分组,分别训练,从而每组看起来都是减少了的,但总体上不会缺失重要信息 过采样:增加正例,SMOTE,插值法添加正例,不易招致过拟合 再缩放(阈值移动) 感觉越来越难学了,矩阵的表示方式看着也难受,有朋友能推荐一些资料吗 请朋友们批评建议指正! 参考文献: 周志华. 机器学习