一、特征工程概念入门
1.特征提取
从原始数据中提取与目标相关的特点(特征向量)
2.特征预处理
不同特征对模型的影响的一致性:因量纲问题,有些特征对模型影响大,有些影响小
将数据做标准化、归一化处理
3.特征降维
将原始数据的评价维度降低
4.特征选择
从特征中选择出一些重要特征训练模型
5.特征组合
将多个特征合并组合在一起
二、模型拟合问题
1.拟合问题
a.拟合:用在机器学习领域,用来表示模型对样本点的拟合情况
b.欠拟合:模型在训练集上表现很差、在测试集表现也很差
c.过拟合:模型在训练集上表现很好,在测试集上表现很差
2.产生原因
欠拟合:模型过于简单 过拟合:模型太过复杂、数据不纯、训练数据太少
3.泛化概念
泛化:集体的、个别的扩大为一般的能力
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模型
三、机器学习开发环境
基于Python的scikit-learn库
作用:a.简单高效的数据挖掘和数据分析工具
b.可供大家使用,可在各种环境中重复使用
c.建立在NumPy,SciPy和matplotlib上
d.开源,可商业使用-获取BSD许可证
安装方法:pip install scikit-learn
四、KNN算法简介
1.KNN概念K Nearest Neighbor
一个样本最相似的k个样本中的大多数属于某一个类别,则该样本也属于这个类别
2.KNN分类流程
a.计算未知样本到每一个训练样本的距离
b.将训练样本根据距离大小升序排列
c.取出距离最近的K个训练样本
d.进行多数表决,统计K个样本中哪个类别的样本个数最多
e.将未知的样本归属到出现次数最多的类别
3.KNN回归流程
a.计算未知样本到每一个训练样本的距离
b.将训练样本根据距离大小升序排列
c.取出距离最近的K个训练样本
d.把这个K个样本的目标值计算其平均值
d.将未知的样本预测的值了
4.K值的选择
K值过小:过拟合 K值过大:欠拟合
五、KNN算法API介绍
分类、回归实现
结果: