文本的表示技术 | (1)词袋模型

5.1 词袋模型(Bag-of-Words,BOW)

5.1.1 基于频次的词袋模型

假设数据集为两个经过预处理且分好词的句子:

1.你/站在/桥上/看/风景/看/风景/的/人/在/楼上/看/你

2.明月/装饰/了/你/的/窗子/你/装饰/了/别人/的/梦

可得到对应长度为15的词典如下:

[里面包含15个词]

如此可以将两个句子向量化如下:

1.[2,1,1,3,2,1,1,1,1,0,0,0,0,0,0]

2.[2,0,0,0,0,2,0,0,0,1,2,2,1,1,1]

基于频次的词袋模型的优点是简单易用,原理清晰;缺点也很显而易见,没有考虑词序,词之间的联系以及文法,丢失了大量的重要信息。并且,因为存在许多的0,所以文本表示是一个非常稀疏的高维向量。

 

5.1.2 基于TF-IDF的词袋模型

5.1.3 相关工具的使用

gensim

sklearn

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值