机器学习及R应用五天现场班
陈强 亲授
北京, 2021年1月20-24日
Now or Never!
陈强老师的《机器学习及R应用》(高教社,2020年11月,458页,双色印刷)已经上市啦!目前已在京东与当当自营销售。配套五天现场班即将于2021年1月20日在北京拉开序幕,无疑这是快速上手机器学习及R应用的捷径啊……
从本期开始,将陆续介绍机器学习的若干基本概念,帮助大家逐渐掌握机器学习的视角与方法。
或许你已经上过多门计量经济学的课程,却很少听老师们说起“过拟合”(overfit)的问题。另一方面,“过拟合”却是机器学习重要的基本概念。何以如此?
根本原因在于,机器学习的主要目的在于预测,而过拟合则是预测的大敌。不妨来看下图。考虑使用下图中的散点信息,找到使用X(横轴变量)预测Y(纵轴变量)的最佳函数关系。
在最右边的小图,使用一条水平线来拟合散点(限制直线的斜率为0),导致无法抓住数据的主要特征,故处于“欠拟合”(underfitting)的状态。中间的小图,则较好地抓住了数据的特征,故处于“拟合良好”(good fit,optimal fit)的状态。
在另一个极端,最左边的小图中,拟合函数过于“拐弯”,虽然完美地拟合了散点(样本内的训练误差为0),但预测能力可能较差(样本外的测试误差较大),因为图中散点的那些“拐弯”很可能是噪音(noise)所致,并非数据中的固有信号(signal),故一般不会在未来没见过的数据(unseen data)中重现这些随机出现的特点。
以《机器学习及R应用》(陈强,2020)第4章的案例为例(细节与R代码均