2.2 特征工程介绍
算法 特征工程
2.2.1 为什么需要特征工程(Feature Engineering)
2.2.2 什么是特征工程
sklearn用于 特征工程
pandas用于 数据清洗、数据处理
特征抽取/特征提取:将不同种类文本转换为数据类型,让计算机更好处理
机器学习算法 - 统计方法 - 数学公式
文本类型 -》 数值
类型 -》 数值
2.3.1 特征提取
sklearn.feature_extraction
2.3.2 字典特征提取 - 类别 -> one-hot编码
原理:字典是输入字典型数据以后,比如输入了三个字典(三个样例),每个字典两个特征值(图一),则最后将三个样本的两个特征值将变成位置变量以及对应值(若特征值等于字符串,则位置对应值1。若为数字,则对应值为数字)。
传参模式:[{
'city': '北京','temperature':100}, {
'city': '上海','temperature':60},
机器学习之特征工程:字典的特征提取总结反思
最新推荐文章于 2022-11-03 11:13:46 发布
本文探讨了在机器学习中,如何进行字典特征的提取,通过图例和代码示例展示了利用Python实现的过程。重点强调了采用sparse矩阵形式的优势,特别是在处理大数据时能有效节省内存。
摘要由CSDN通过智能技术生成