本人打算进入机器学习领域,因此打算在学习的时候自己写点博客作为总结,主要是给对自己的梳理,不对的也欢迎大家指正。后续也能也会对之前的内容进行修改,毕竟学到后面肯定会对之前的有别的感受。
基本步骤
获取训练数据——包含所有模型的假定方向——确定学习策略——实现最优算法——选择最优模型——对新数据进行预测和分析
分类
机器学习主要可以分为以下几类:
- 监督学习
- 非监督学习
- 半监督学习
- 强化学习
主要讨论的就是监督学习的内容,而在监督学习中有可以分为几类:
- 回归:输入值和输出值都是一系列连续变量(或者转化为连续变量)
- 分类:输入连续。输出离散
- 标注:输入输出都是变量序列
评价
损失函数:一次预测的好坏
- 0-1损失函数
- 平方差损失函数
- 绝对损失函数
- 对数(对数似然)损失函数
风险函数:平均意义下预测的好坏
- 期望风险:关于联合分布的期望损失
- 经验风险:训练样本集的平均损失(当训练样本足够大时,近似认为等于前者)
针对过拟合常用方法
- 正则化:经验风险上加一个正则化项或者罚项,模型越复杂,该项越大
- 交叉验证:
- 简单交叉验证
- S折交叉验证
- 留1交叉验证( S折的特例)