特征工程,数据处理是千变万化的。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
pandas做的是数据处理,缺失值处理
sklearn用于特征工程
特征工程
特征抽取/特征提取
特征预处理
特征降维
这是一篇英文的短文,想要用机器学习的算法去做。
机器学习方法 - 统计方法 - 数学公式
文本类型转换成数值
因为一些数据无法被机器学习的算法进行学习,需要进行特征提取,才能进行学习。
特征提取
将任意数据(如文本图像,转换成可用于机器学习的数字特征)
特征值化是为了计算机更好的去理解数据
字典特征提取(特征离散化)
文本特征提取
图像特征提取(深度学习)
特征提取的API
sklearn.feature_extraction
DictVectorizer
vector 数学:向量, 物理 :矢量
转换器的对象的父类叫做Transfer
返回一个sparse矩阵
sparse稀疏 将非0值 按位置表示出来
节省内存
应用场景
本身拿到的数据就是字典数据