机器学习一（学习笔记）数据的特征抽取及预处理

最新推荐文章于 2024-02-29 11:32:23 发布

VIP文章 tzyyy1

最新推荐文章于 2024-02-29 11:32:23 发布

阅读量3.8k

点赞数

分类专栏：机器学习文章标签：数据分析

本文链接：https://blog.csdn.net/tzyyy1/article/details/84983794

版权

Scikit-learn

安装Scikit-learn

pip3 install Scikit-learn
pip3 install scipy

一、数据的特征抽取

现实世界中多数特征都不是连续变量，比如分类、文字、图像等，为了对非连续变量做特征表述，需要对这些特征做数学化表述，因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法

1、字典数据抽取

我们将城市和环境作为字典数据，来进行特征的提取。

sklearn.feature_extraction.DictVectorizer(sparse = True)

将映射列表转换为Numpy数组或scipy.sparse矩阵

sparse 是否转换为scipy.sparse矩阵表示，默认开启

方法

fit_transform(X,y)

应用并转化映射列表X，y为目标类型

inverse_transform(X[, dict_type])

将Numpy数组或scipy.sparse矩阵转换为映射列表

from sklearn.feature_extraction import DictVectorizer

dict = DictVectorizer(sparse=False)

# 调用fit_transform
data = dict.fit_transform([{
   'city': '北京','temperature': 100}, {
   'city': '上海','temperature':60}, {
   ' ': '深圳','temperature': 30}])

print(dict.get_feature_names())

print(dict.inverse_transform(data))

print(data)
'''
['city=上海', 'city=北京', 'city=深圳', 'temperature']
[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 60.0}, {'city=深圳': 1.0, 'temperature': 30.0}]
[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]
'''

2、文本特征提取

只限于英文，中文需要先进性分词处理

文本的特征提取应用于很多方面，比如说文档分类、垃圾邮件分类和新闻分类。那么文本分类是通过词是否存在、以及词的概率（重要性）来表示。

(1)文档的中词的出现

数值为1表示词表中的这个词出现，为0表示未出现

sklearn.feature_extraction.text.CountVectorizer()

将文本文档的集合转换为计数矩阵（scipy.sparse matrices）

方法

fit_transform(raw_documents,y)

学习词汇词典并返回词汇文档矩阵

from sklearn.feature_extraction.text import CountVectorizer
#抽取英文文本数据
content = ["life is short,i like python","life is too long,i dislike python"]

cv = CountVectorizer()
#进行抽取
data=  cv.fit_transform(content)
#打印数据，需要toarray()方法转变为numpy的数组形式
print(cv.get_feature_names())
print(data.toarray())

'''
['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]
'''

中文案列

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data = cv.fit_transform(["人生 苦短，我 喜欢 python", "人生漫长，不用 python"])
#获取特征名称
print(cv.get_feature_names())
#打印特征化之后的数据，需要toarray()方法转变为numpy的数组形式
print(data.toarray())

'''
['python', '不用', '人生', '人生漫长', '喜欢', '苦短']
[[1 0 1 0 1 1]
 [1 1 0 1 0 0]]
'''

温馨提示：每个文档中的词，只是整个语料库中所有词，的很小的一部分，这样造成特征向量的稀疏性（很多值为0）为了解决存储和运算速度的问题，使用Python的scipy.sparse矩阵结构

3、TF-IDF表示词的重要性

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF * IDF。

TfidfVectorizer会根据指定的公式将文档中的词转换为概率表示。（朴素贝叶斯介绍详细的用法）

class sklearn.feature_extraction.text.TfidfVectorizer()

方法

fit_transform(raw_documents,y)</

最低0.47元/天解锁文章

tzyyy1

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习一（学习笔记）数据的特征抽取及预处理

Scikit-learn安装Scikit-learnpip3 install Scikit-learnpip3 install scipy一、数据的特征抽取现实世界中多数特征都不是连续变量，比如分类、文字、图像等，为了对非连续变量做特征表述，需要对这些特征做数学化表述，因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法1、字典数据抽取...
复制链接

扫一扫