**
任务1——线性回归算法梳理
**
机器学习的一些概念
1.有监督和无监督学习
有监督学习(Supervised Learning): 不仅给计算机一组数据,还告诉计算机这一组数据属于什么标签。计算机学习之后,再丢给计算机一组新的数据,这一组数据是还没有分类的。计算机经过计算之后给出这一组中每个数据最可能属于什么标签。
有监督学习有两类,回归(Regression) 与 分类(Classification) 。比如现在让你预测上海静安寺附近一个120平米房子的房价。你会先去搜集静安寺附近不同房子的房价,然后以平米数为横轴,房价为纵轴让计算机拟合出一条曲线,把120平米代入可以得到预测的房价。这种情况下是在预测一个连续值的输出。这就是回归问题。
又比如现在让你帮助医院预测一个病人他的肿瘤是恶性还是良性。肿瘤是恶性还是良性,只有两种结果,记恶性为0,良性为1,这就是一个离散型的问题。根据已知的数据集,不同尺寸的肿瘤恶性还是良性的概率不同,预测出来的是一个离散的结果,这就是分类问题。
无监督学习(Unsupervised Learning): 同样给计算机一组数据,但不告诉计算机这组数据的标签,也就是说让计算机自己找到这一组数据中存在哪几种类型的数据并将它们分类好。可以根据数据中变量之间的关系对数据进行聚类,从而得出分类。
2.泛化能力
**泛化能力(generalization ability&#