深度学习篇-之sklearn字典特征抽取

为什么进行字典特征抽取

导入库:
from sklearn.feature_extraction import DictVectorizer
API:DictVectorizer(sparse=False),其中sparse是scipy中的矩阵矩阵格式:通常称之为sparse矩阵,false表示不启用该矩阵格式,True表示启用该格式。
sparse格式:

描述:其中前面一列表示矩阵中的坐标,后面表该处的值,比如(0,1)1.0
就表示,在(0,1)这个坐标位置处的值为1.0.
将sparse改成False:
在这里插入图片描述
描述:是不是很熟悉呢?,没错,不启用sparse时,其就是一个列表。
数值含义:
介绍该板块之前,我们先来看一下其中的另外两个API:
fit_transform([{“city”:“北京”,“tempet”:100},{“city”:“上海”,“tempet”:86}])
它将输入的字典序列映射成刚刚之前对应的数值。至于如何映射,一会后面会讲。
get_feature_names():该API输入结果如下:
在这里插入图片描述
它将键值对映射起来了,并返回该映射的列表。其中值得注意的是tempet这一项。记住字典特征提取不提取数值。
在介绍如何装换为数值时,我们还要先介绍一个编码形式:one-hot编码:
在这里,允许我冲百度上贴一张图片:
在这里插入图片描述
其中样本的特征就是我们使用get_feature_names()方法所返回的哪一个列表。样本就是我们的字典数据:
现在来看一看我们打印出来的数据结构:
在这里插入图片描述
在这里简单的来说,第一行就是我们提取的特征,下面数据就是我们的文本信息。
每一条记录表示每一行,其中只要该条记录中在上面特行中出现,我们就标为1,其中数字tempet由于为编码,就是该数字表示。
测试代码:

def dectvec():
    dict = DictVectorizer(sparse=False)
    data = dict.fit_transform([{"city":"北京","tempet":100},{"city":"上海","tempet":86}])
    print(dict.get_feature_names())
    print(data)
    return None

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

思禾

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值