b站李宏毅机器学习笔记随笔:P1-P4
视频地址:https://www.bilibili.com/video/BV1JE411g7XF?p=4
机器学习
从数据中筛选出一些有用的信息。最开始的机器学习,是对一些数据进行回归(预测未来),分类(剖析数据特征,分门别类)
我们的世界存在的数据,是人类无法全部获得的,可以认为是无穷的,小小的人类只能从部分的数据中,分析上帝到底在想什么。
事物具有普遍性与特殊性,能被我们采集到的数据也是如此:数据中蕴含的普遍性让能够窥探上帝在想什么,也就是说能一定程度上预测没有被我们采集到的数据是什么样的。同时,我们又很容易被采集回来的数据的特殊性带偏。
过拟合与欠拟合,就是对采集回来数据的特殊性与普遍性的一种学术表示。过拟合是因为我们太在意手头数据的特殊性了,被特殊性所带偏;欠拟合是没有很好地把握手头数据存在的普遍性。
李宏毅用射箭来描述这个现象:
1.复杂的模型能瞄准靶心,但是技术不行,导致散落在靶心周围。
2.简单的模型不能瞄准靶心,但是技术还可以,导致结果集中,但是远离靶心。
3.最好的情况是模型能瞄准靶心,同时技术也还可以,不会导致结果太散。
两种情况都会导致误差,但是误差的来源值得研究:
李宏毅把第一个情况导致的误差看作是bias(偏置,数学上来说是模型的期望输出均值偏离靶心;或者我可以认为他是稳态误差?),第二个误差看作是variance(方差)
误差来源