【机器学习】特征工程和文本特征提取

最新推荐文章于 2022-03-17 17:26:23 发布

灵魂捕手

最新推荐文章于 2022-03-17 17:26:23 发布

阅读量495

点赞数

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/kogodlife/article/details/106987350

版权

本文介绍了特征工程的概念，探讨了机器学习的工作流程，并详细讲解了如何使用scikit-learn库进行字典和文本特征抽取，包括DictVectorizer和CountVectorizer的使用。同时，文章还阐述了中文特征处理的策略以及TF-IDF的重要性及其在文本分类中的应用。

摘要由CSDN通过智能技术生成

一、特征工程是什么

特征工程是将原始数据转换未更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的预测的准确性。

二、数据集

结构：特征值+目标值

举例：房价预测

注：有些数据集可以没有目标值

三、机器学习工作流程

四、scikit-learn库介绍

● python语言的机器学习工具

● scikit-learn包括许多知名的机器学习算法的实现

● scikit-learn文档完善，容易上手，丰富的API，使其在学术界颇受欢迎

五、字典特征抽取

作用：对字典数据进行特征值化。

类：sklearn.feature_extraction.DictVectorizer

● DictVectorizer(sparse=True,...)

● 返回词频矩阵

● DictVectorizer.fit_transform(X)

● X：字典或者包含字典的迭代器

● 返回值：返回sparse矩阵

● DictVectorizer.inverse_transform(X)

● X：array数组或者sparse矩阵

● 返回值：返抓换之前数据格式

● DictVectorizer.get_feature_names()

● 返回类别名称

● DictVectorizer.transform(X)

● 按照原来的标准转换

代码例子：

from sklearn.feature_extraction import DictVectorizer


def main():
    # 字典数据抽取对象
    dic = DictVectorizer()
    # 分析字典特征并转换成sparse矩阵
    data = dic.fit_transform([{'city': '北京', 'temperature': 100},
                        {'city': '

最低0.47元/天解锁文章

灵魂捕手

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】特征工程和文本特征提取

一、特征工程是什么特征工程是将原始数据转换未更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的预测的准确性。二、数据集结构：特征值+目标值举例：房价预测注：有些数据集可以没有目标值三、机器学习工作流程四、scikit-learn库介绍● python语言的机器学习工具● scikit-learn包括许多知名的机器学习算法的实现● scikit-learn文档完善，容易上手，丰富的API，使其在学术界颇受欢迎...
复制链接

扫一扫

专栏目录