一.特征工程概念入门
1.相关概念
(1) 特征(feature):从数据中抽取出来的,对结果预测有用的信息,有时也被称为属性。
(2)特征工程:利用专业背景知识和技巧处理数据,让模型效果最好的过程叫做特征工程。
2.特征工程的内容
(1)特征提取:原始数据中提取与任务相关的特征,构成特征向量。
(2)特征预处理:特征对模型产生影响;因量纲问题,有些特征对模型影响大,有些影响小。
(3)特征降维:将原始数据的维度降低,叫做特征降维,一般会对原始数据产生影响。
(4)特征选择:原始数据特征很多,与任务相关是其中一个特征集合子集,不会改变原数据。
(5)特征组合:把多个的特征合并成一个特征。一般利用乘法或加法来完成。
二.模型拟合问题
1.拟合(fitting):用在机器学习领域,用来表示模型对样本点的拟合情况。
2.欠拟合(under-fitting):模型在训练集上表现很差,在测试集上表现也差。
产生原因:模型过于简单。
3.过拟合(over-fitting):模型在训练集上表现很好,在测试集上表现很差。
产生原因:模型太过于复杂,数据不纯,训练数据太少。
4.泛化(Generalization):模型在新数据集上的表现好坏的能力。
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模型。
三.机器学习开发环境
基于python的scikit-learn库
(1)优点:简单高效,可在各种环境中重复使用,开源,可商业使用。
(2)安装方法:pip install scikit-learn