接上篇——生成单词索引表

最新推荐文章于 2020-11-29 03:57:29 发布

一只小废物变小怪物

最新推荐文章于 2020-11-29 03:57:29 发布

阅读量880

点赞数

分类专栏：数据实验文章标签： python 生成字典单词索引表

本文链接：https://blog.csdn.net/qq_28979491/article/details/90404657

版权

实验同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

数据

10 篇文章 0 订阅

订阅专栏

1，首先把句子处理成[[],[],[],,,,]的格式每一个[]存放一个句子，所有的句子放在一个list里。

word_counts = Counter(itertools.chain(*sentences))

itertools迭代器

word_counts.most_common() 函数使用方法；返回的是用于计算字符串中字符出现的接口，word_counts.most_common() 输入整数时C 返回的是排名前C个的数据 不输入是按照出现次数对所有数据排序，返回值的类型是list[] 第一个参数：字符第二个参数是：字符出现的次数

[x[0] for x in word_counts.most_common()]的作用就是将word_counts.most_common() 返回值的第一个参数x[0]赋值给 vocabulary_inv

vocabulary_inv = list(sorted(vocabulary_inv)按照字典序对键值进行排序list格式。

# build dictionary mapping from word to index
vocabulary = {x: i for i, x in enumerate(vocabulary_inv)}

生成的结果格式：

一只小废物变小怪物

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
接上篇——生成单词索引表

1，首先把句子处理成[[],[],[],,,,]的格式每一个[]存放一个句子，所有的句子放在一个list里。word_counts = Counter(itertools.chain(*sentences))itertools迭代器word_counts.most_common() 函数使用方法；返回的是用于计算字符串中字符出现的接口，word_counts.most_common(...
复制链接

扫一扫