多分类
- 数字识别
- 图像识别
- 判断发放给客户信用卡得等级
回归任务
- 结果是一个连续数字的值, 而非一个类别
1.房屋价格
2.市场分析
3.学生成绩
4.股票价格
监督学习
- 回归
- 分类
机器学习方法的分类
- 监督学习
给机器的训练数据拥有“标记”或者“答案”。人类已经知道了答案,把这些数据给机器去学习,最后机器能够自动获得答案。 - 非监督学习
给机器的训练数据没有任何“标记”或者“答案”。
对没有“标记”得数据进行分类 - 聚类分析
意义:对数据进行降维,特征提取,特征压缩 - 半监督学习
一部分数据有“标记”或者“答案”,另一部分数据没有。
各种原因产生得标记缺失。
通常都先用无监督学习手段对数据做处理,之后用监督学习手段做模型的训练和预测。 - 增强学习
根据周围环境的情况,采取行动,根据采取行动得结果,学习行动方式。
1.无人驾驶
2.机器人
监督学习和半监督学习是基础
机器学习的其他分类
批量学习和在线学习
- 批量学习
输入大量熟悉资料 -> 机器学习算法 - > 模型
优点:简单
问题: 如何适应环境变化
解决方案:定时重新批量学习
缺点:每次重新批量学习,运算量巨大
在某些环境下变化非常快的情况下,甚至不可能。 - 在线学习
模型得出的样例正确结果再次进行学习
有点:及时反应新的环境变化
问题:新的数据带来不好的变化
解决方案:需要加强对数据进行监控
也适用于数据量巨大,完全无法批量学习。
参数学习和非参数学习
- 参数学习
一旦学到了参数,就不在需要原有的数据。 - 非参数学习
不对模型进行过多家属
非参数不等于没参数
奥卡姆的剃刀
- 简单的就是好的
- 到底在机器学习,什么叫“简单"?
没有免费的午餐定理
- 可以严格的数学推导出:任意两个算法,他们的期望性能是相同的!
也就是说没有哪个算法比另一个算法好 - 具体到某个特定的问题,有些算法可能更好
- 但没有一种算法,绝对比另一种算法好
- 脱离具体问题,谈那个算法好是没有意义的
- 在面多一个问题是,尝试多种算法是很有意义的。