摘要: 机器学习一般用于解决不确定性问题.
1. 基本概念
现实生活中确定性的例子:
- 已知我的工作量, 求我本月的收入 (财务处不会搞错).
- 已知我的各科成绩, 求总分 (老师不会搞错).
- 已知二哈撕了沙发, 求它是否将拥有完整的汪生 (主人不会惯着).
现实生活有更多不确定性的例子:
- 如果我去向那个女生表白, 她会同意吗? (Y/N)
- 哪个国家会夺得下届奥运会团体射击冠军? (中国队/美国队/法国队/…)
- 根据一张照片判断人的年龄. ( [ 0 , 100 ] [0, 100] [0,100])
- 根据某只股票这段时间的价格波动, 判断明天的涨/跌. ( [ − 10 % , + 10 % ] [-10\%, +10\%] [−10%,+10%])
- 明天的天气如何? (有雨/无雨, 有风/无风, 有太阳/无太阳, …)
- 把一大堆照片分成若干小堆, 怎么分最好?
所谓不确定性, 是指我们在进行预测的时候, 不能够保证 100% 的准确.
机器学习的本质, 就是 “猜”, 谁猜得更好, 谁就赢了.
2. 特例
机器学习有时也做一些确定性问题. 但这些问题的复杂度过高, 求最优解从计算上来说不可行 (一般是 NP 难问题之类), 所以使用启发式算法之类求次优解.
另外有一些频繁项集挖掘之类的工作, 可以归为模式挖掘, 但我个人不建议归为机器学习, 因为它并不涉及预测.
3. 不确定性产生的原因
- 信息不足. 按理说那个女生要答应我的, 但我不知道她刚挂科心情不好, 贸然行动导致被拒. 只考虑股价而不关心政策的变化, 注定要被深度套牢.
- 噪音. 照片太模糊, 粉丝都无法区分是张曼玉还是王祖贤 (唉, 暴露我的年龄啦).
4. 延伸 (胡扯)
既然机器学习的特长是猜, 那它可以用于算命吗?
回答: 已经有人用它来算命了. 但我建议你不要用: 如果它没猜对, 你还用它干啥? 如果它猜对了, 你的人生就失去了各种惊喜与惊吓.