1、概念
机器学习中比较活跃的四大应用领域:数据挖掘、计算机视觉、自然语言处理、机器人决策
机器学习的两大基本问题:回归问题、分类问题
机器学习模型:f
features
label
样本
数据集
2、有监督学习(supervised learning)
把训练和分类的结果一并丢给计算机分析。 计算机进行学习之后,再丢给它新的未知的数据,它也能计算出该数据导致各种结果的概率,给你一个最接近正确的结果。 由于计算机在学习的过程中不仅有训练数据,而且有训练结果(标签),因此训练的效果通常不错。
举例:不仅把书给学生进行训练给书本分类的能力,而且把分类的结果(哪本书属于哪些类别)也给了学生做标准参考。
有监督学习的结果可分为两类:分类或回归。
无监督学习(unsupervised learning)
只给计算机训练数据,不给结果(标签),因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借强大的计算能力分析数据的特征,从而得到一定的成果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。
举例:只给学生进行未分类的书本进行训练,不给标准参考,学生只能自己分析哪些书比较像,根据相同与相似点列出清单,说明哪些书比较可能是同一类别的。
半监督学习(semi-supervised learning)
有监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常远远大于有标签数据数量(这也是符合现实情况的)。
隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。
举例:给学生很多未分类的书本与少量的清单,清单上说明哪些书属于同一类别。
3、泛化能力是模型对未知数据的预测能力。实际当中,通常通过测试误差来评价学习方法的能力。
4、过拟合欠拟合及解决方法
https://blog.csdn.net/raojunyang/article/details/79701605
5、交叉验证线性回归的原理
https://blog.csdn.net/yueguizhilin/article/details/77711789
https://blog.csdn.net/linkin1005/article/details/42869331
6、线性回归损失函数、代价函数、目标函数
https://blog.csdn.net/zwqjoy/article/details/82254602
7、优化方法(梯度下降法、牛顿法、拟牛顿法等)
https://blog.csdn.net/Haiyang_Duan/article/details/79206904
8.线性回归的评估指标
https://www.cnblogs.com/volcao/p/9104183.html
https://www.sohu.com/a/326406532_100099320
9、sklearn参数详解
https://blog.csdn.net/wuxiaosi808/article/details/78036633