为什么进行字典特征抽取
导入库:
from sklearn.feature_extraction import DictVectorizer
API:DictVectorizer(sparse=False),其中sparse是scipy中的矩阵矩阵格式:通常称之为sparse矩阵,false表示不启用该矩阵格式,True表示启用该格式。
sparse格式:
描述:其中前面一列表示矩阵中的坐标,后面表该处的值,比如(0,1)1.0
就表示,在(0,1)这个坐标位置处的值为1.0.
将sparse改成False:
描述:是不是很熟悉呢?,没错,不启用sparse时,其就是一个列表。
数值含义:
介绍该板块之前,我们先来看一下其中的另外两个API:
fit_transform([{“city”:“北京”,“tempet”:100},{“city”:“上海”,“tempet”:86}])
它将输入的字典序列映射成刚刚之前对应的数值。至于如何映射,一会后面会讲。
get_feature_names():该API输入结果如下:
它将键值对映射起来了,并返回该映射的列表。其中值得注意的是tempet这一项。记住字典特征提取不提取数值。
在介绍如何装换为数值时,我们还要先介绍一个编码形式:one-hot编码:
在这里,允许我冲百度上贴一张图片:
其中样本的特征就是我们使用get_feature_names()方法所返回的哪一个列表。样本就是我们的字典数据:
现在来看一看我们打印出来的数据结构:
在这里简单的来说,第一行就是我们提取的特征,下面数据就是我们的文本信息。
每一条记录表示每一行,其中只要该条记录中在上面特行中出现,我们就标为1,其中数字tempet由于为编码,就是该数字表示。
测试代码:
def dectvec():
dict = DictVectorizer(sparse=False)
data = dict.fit_transform([{"city":"北京","tempet":100},{"city":"上海","tempet":86}])
print(dict.get_feature_names())
print(data)
return None