一.机器学习建模流程
机器学习建模的一半步骤
数据评估:
搜集与完成机器学习任务相关的数据集
数据基本处理:
数据集中异常值,缺失值的处理等
特征工程:
对数据特征进行提取、转成向量,让模型达到最好的效果
机器学习(模型训练):
选择合适的算法对模型进行训练 (算法:有监督学习,无监督学习,半监督学 习,强化学习)
模型评估:
评估效果好上线服务,评估效果不好则重复上述步骤
二.特征工程概念入门
什么是特征工程:
1.特征Feature:
对任务有用的属性信息
2.特征工程:
利用专业背景知识和技巧处理数据,让模型效果更好
特征工程的内容:
特征提取 feature extraction :
特征向量
特征预处理 feature preprocessing:
不同特征对模型影响一致性
特征降维 Feature decomposition:
保证数据的主要信息要保留下来
特征选择 feature selection :
从特征中选择出一些重要特征训练模型
特征组合 feature crosses:
把多个特征合并组合成一个特征
三.KNN算法简介
1.KNN概念:
一个样本最相似的 k 个样本中的大多数属于某一个类别,则该样本也属于这个类别
2.KNN分类流程
1.计算未知样本到每一个训练样本的距离
2.将训练样本根据距离大小升序排列
3.取出距离最近的 K 个训练样本
4.进行多数表决,统计 K 个样本中哪个类别的样本个数最多
5.将未知的样本归属到出现次数最多的类别
3.KNN回归流程
1.计算未知样本到每一个训练样本的距离
2.将训练样本根据距离大小升序排列
3.取出距离最近的 K 个训练样本
4.把这个 K 个样本的目标值计算其平均值
5.将未知的样本预测的值了
4.K值的选择
• K值过小:过拟合
• K值过大:欠拟合
拟合:
1.过拟合和欠拟合
拟合:用来表示模型对样本分布点的模拟情况
模型在训练集上表现很差、在测试集表现也很差,是欠拟合
模型在训练集上表现很好、在测试集表现很差,是过拟合
2.过拟合欠拟合产生的原因
欠拟合产生的原因:模型过于简单
过拟合产生的原因:模型太过于复杂、数据不纯、训练数据太少
四.KNN算法API介绍
KNN分类API
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5) n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数