文本信息向量化

最新推荐文章于 2022-10-23 06:50:26 发布

MIKIKKKK

最新推荐文章于 2022-10-23 06:50:26 发布

阅读量538

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/meiqixiao/article/details/103224750

版权

1. 词袋模型（bow bag of words）

one-hot表示方法

对语料进行清理，完成分词–大鱼吃小鱼也吃虾米，小鱼吃虾米
对每个词进行编号，形成字典–{“大鱼”:1,“吃”:2,“小鱼”:3,“也”:4,“虾米”:5}
用0/1代表该词是否出现在文本中，记录成特征向量–[1,1,1,1,1],[0,1,1,0,1],不同考虑词频的问题
缺点：不考虑词与词之间的顺序，它假设词与词相互独立，它得到的特征是离散稀疏的

1. 用sklearn库实现

from sklearn.feature_extraction.text import CountVectorizer
countvec = CountVectorizer(min_df=2) #两个以上文档出现的才保留

#文档的词与词之间用空格分隔
x = countvec.fit_transform(['我们 都爱 大 数据','数据 科学 技术部 经济'])
type(x)

scipy.sparse.csr.csr_matrix

x.todense() #将稀疏矩阵直接转换为标准格式矩阵

matrix([[1],
[1]], dtype=int64)

#只存了非零的地方
countvec.get_feature_names()

[‘数据’]

countvec = CountVectorizer()
x = countvec.f

最低0.47元/天解锁文章

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文本信息向量化

1. 词袋模型（bow bag of words）one-hot表示方法对语料进行清理，完成分词–大鱼吃小鱼也吃虾米，小鱼吃虾米对每个词进行编号，形成字典–{“大鱼”:1,“吃”:2,“小鱼”:3,“也”:4,“虾米”:5}用0/1代表该词是否出现在文本中，记录成特征向量–[1,1,1,1,1],[0,1,1,0,1],不同考虑词频的问题缺点：不考虑词与词之间的顺序，它假设词与词相互...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。