接上篇——生成单词索引表

1,首先把句子处理成[[],[],[],,,,]的格式每一个[]存放一个句子,所有的句子放在一个list里。

word_counts = Counter(itertools.chain(*sentences))

itertools迭代器

word_counts.most_common() 函数使用方法;返回的是用于计算字符串中字符出现的接口,word_counts.most_common() 输入整数时C 返回的是排名前C个的数据  不输入是按照出现次数对所有数据排序, 返回值的类型是list[]   第一个参数:字符   第二个参数是:字符出现的次数

[x[0] for x in word_counts.most_common()]的作用就是将word_counts.most_common() 返回值的第一个参数x[0]赋值给 vocabulary_inv 

vocabulary_inv = list(sorted(vocabulary_inv)按照字典序对键值进行排序list格式。
# build dictionary mapping from word to index
vocabulary = {x: i for i, x in enumerate(vocabulary_inv)}

生成的结果格式:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值