利用scipy.sparse.csr_matrix构建term-document matrix

最新推荐文章于 2022-05-08 20:51:29 发布

YiqiangXu

最新推荐文章于 2022-05-08 20:51:29 发布

阅读量419

点赞数

该部分讲解的是scikit-learn中构建term-document矩阵的方法,该方法被用到了以下地方：

例如TfidfVectorizer中的fit_transform方法就是利用scipy的稀疏矩阵构建并返回term-document矩阵：

稀疏矩阵Compressed Sparse Row (CSR)存储原理：

下面讲解具体实现代码：

# coding: utf-8
from scipy.sparse.csr import csr_matrix

docs = [["hello", "world", "hello"], ["goodbye", "cruel", "world"]]
indptr = [0]        # 存放的是行偏移量
indices = []        # 存放的是data中元素对应的列编号（列编号可重复）
data = []           # 存放的是非0数据元素
vocabulary = {}     # key是word词汇，value是列编号
for d in docs:      # 遍历每个文档
    for term in d:  # 遍历文档的每个词汇term
        # setdefault如果term不存在，则将新term和他的列
        # 编号len(vocabulary)加入到词典中，返回他的编号；
        # 如果term存在，则不填加，返回已存在的编号
        index = vocabulary.setdefault(term, len(vocabulary))
        indices.append(index)
        data.append(1)
    indptr.append(len(indices))
# csr_matrix可以将同一个词汇次数求和
csr_matrix((data, indices, indptr), dtype=int).toarray()

结果：

[[2 1 0 0]
[0 1 1 1]]

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用scipy.sparse.csr_matrix构建term-document matrix

该部分讲解的是scikit-learn中构建term-document矩阵的方法,该方法被用到了以下地方：例如TfidfVectorizer中的fit_transform方法就是利用scipy的稀疏矩阵构建并返回term-document矩阵：稀疏矩阵Compressed Sparse Row (CSR)存储原理：下面讲解具体实现代码：
复制链接

扫一扫

YiqiangXu CSDN认证博客专家 CSDN认证企业博客

码龄11年

96: 原创

18万+: 周排名

224万+: 总排名

25万+: 访问

: 等级

2840: 积分

57: 粉丝

75: 获赞

40: 评论

169: 收藏

私信

关注

热门文章

分类专栏

机器学习 13篇
C语言 10篇
python 4篇
nlp 16篇
HMM 3篇
crf 2篇
spark 6篇
elasticsearch 4篇
hbase 4篇
intelliJ IDEA 3篇
visual studio 3篇
CLion 1篇
深度学习 13篇
bayesOpt 1篇
tensorflow 10篇
强化学习 2篇
leetcode 10篇
NLPCC-task3系列 1篇
JAVA复习系列 2篇

最新评论

C/C++不同文件夹下包含头文件的方法及#include的使用
CC城子: 不错，希望回访
基于LSTM搭建一个文本情感分类的深度学习模型:准确率往往有95%以上
璇玑湖: ValueError: Invalid argument "class_mode" passed to K.function with TensorFlow backend有人知道这个问题怎么解决吗？
opt.compute_gradients() 与 tf.gradients 与 tf.stop_gradient()
caixxiong: 亲, 您这根本就说错了,好吧!!报这个错误"TypeError: Fetch argument None has invalid type"的原因并不是因为res和w2不相关, 你仔细看这个错误, 实际上是说sess.run()不能fetch None类型, 这是因为grads=[None, None], 根本不是因为res和w2不相关. 不然你改成tf.gradients(res, [w1,]), 它还是同样报这个错误, 难道res和w1也不相关吗? 再一个, 下面的例子z2和w1, w2也没有关系啊, 为啥不报错?, 其实上面的那个例子报错的根源在于:w1和w2都是int类型, 而int类型是不能求梯度的(这个我猜的), 所以导致grads=[None, None], 从而不能run(grads), 你把w的类型改成float,就不会报错了. 哎, 写这么多, 麻烦
SVM合页损失函数
lmw0320: 这个和神经网络中的激活函数ReLu有什么区别？？感觉就是一样的函数表达式
基于LSTM搭建一个文本情感分类的深度学习模型:准确率往往有95%以上
weixin_41896645 回复 a17722786545: 请问你跑通了吗？数据集失效了可以分享一下嘛！万分感谢！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。