机器学习
一:特征工程
概念:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程(特征工程的好坏会影响模型的上限,是一项专项工作)
涉及内容:
①特征提取:从无到有的做行列向量数据
②特征预处理:将数据标准化,归一化的处理
③特征降维:将原始数据维度降低,一般会对原始数据产生影响
④特征选择:不会改变数据
⑤特征组合:把多个特征合成一个特征
二:模型拟合
★欠拟合产生的原因:模型过于简单,特征过少
解决方法:拟合可以通过增加特征来解决
★过拟合产生的原因:模型太过于复杂、数据不纯、训练数据太少
解决方法:过拟合可以通过正则化、异常值检测、特征降维等方法来解决
三:机器学习开发环境
基于Python的scikit-learn库
- 简单高效的数据挖掘和数据分析工具
- 可供大家使用,可在各种环境中重复使用
- 建立在NumPy,SciPy和matplotlib上
- 开源,可商业使用-获取BSD许可证
安装方法:pip install scikit-learn
KNN算法
概念:一个样本最相似的k个样本中的大多数属于某一个类别,则该样本也属于这个类别
k过小:过拟合 k过大:欠拟合
空间中两个样本的距离通过欧氏距离来度量的
KNN算法API(介绍分类、回归实现)
代码实现回归问题