深度学习篇-之sklearn字典特征抽取

最新推荐文章于 2024-05-31 22:17:00 发布

思禾

最新推荐文章于 2024-05-31 22:17:00 发布

阅读量603

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/sinat_33909696/article/details/112977127

版权

Python 专栏收录该内容

27 篇文章 2 订阅

订阅专栏

为什么进行字典特征抽取

导入库：
from sklearn.feature_extraction import DictVectorizer
API：DictVectorizer(sparse=False)，其中sparse是scipy中的矩阵矩阵格式：通常称之为sparse矩阵，false表示不启用该矩阵格式，True表示启用该格式。
sparse格式：

描述：其中前面一列表示矩阵中的坐标，后面表该处的值，比如（0,1）1.0
就表示，在（0,1）这个坐标位置处的值为1.0.
将sparse改成False:
在这里插入图片描述
描述：是不是很熟悉呢？，没错，不启用sparse时，其就是一个列表。
数值含义：
介绍该板块之前，我们先来看一下其中的另外两个API:
fit_transform([{“city”:“北京”,“tempet”:100},{“city”:“上海”,“tempet”:86}])
它将输入的字典序列映射成刚刚之前对应的数值。至于如何映射，一会后面会讲。
get_feature_names()：该API输入结果如下：
在这里插入图片描述
它将键值对映射起来了，并返回该映射的列表。其中值得注意的是tempet这一项。记住字典特征提取不提取数值。
在介绍如何装换为数值时，我们还要先介绍一个编码形式：one-hot编码：
在这里，允许我冲百度上贴一张图片：
在这里插入图片描述
其中样本的特征就是我们使用get_feature_names（）方法所返回的哪一个列表。样本就是我们的字典数据：
现在来看一看我们打印出来的数据结构：

在这里简单的来说，第一行就是我们提取的特征，下面数据就是我们的文本信息。
每一条记录表示每一行，其中只要该条记录中在上面特行中出现，我们就标为1，其中数字tempet由于为编码，就是该数字表示。
测试代码：

def dectvec():
    dict = DictVectorizer(sparse=False)
    data = dict.fit_transform([{"city":"北京","tempet":100},{"city":"上海","tempet":86}])
    print(dict.get_feature_names())
    print(data)
    return None

在这里插入图片描述

思禾

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习篇-之sklearn字典特征抽取

为什么进行字典特征抽取导入库：from sklearn.feature_extraction import DictVectorizerAPI：DictVectorizer(sparse=False)，其中sparse是scipy中的矩阵矩阵格式：通常称之为sparse矩阵，false表示不启用该矩阵格式，True表示启用该格式。sparse格式：描述：其中前面一列表示矩阵中的坐标，后面表该处的值，比如（0,1）1.0就表示，在（0,1）这个坐标位置处的值为1.0.将sparse改成Fals
复制链接

扫一扫