自然语言处理爬过的坑：基于爬虫抓取的语料，使用gensim建设dictionary、corpus、tfidf_model并保存成文件

最新推荐文章于 2024-02-25 15:17:58 发布

VIP文章腾阳

最新推荐文章于 2024-02-25 15:17:58 发布

阅读量5.2k

点赞数 1

分类专栏：学习python我所遇到的坑以及解决方法自然语言处理学习笔记文章标签：自然语言处理 python

本文链接：https://blog.csdn.net/weixin_41931602/article/details/80458852

版权

                # 生成字典和向量语料
                dictionary = corpora.Dictionary([corpora_documents])
                #print(dictionary)
                # print 'dfs:', dictionary.dfs  # 字典词频，{单词id，在多少文档中出现}
                print 'num_docs:', dictionary.num_docs  # 文档数目
                print 'num_pos:', dictionary.num_pos  # 所有词的个数
                # word_id_dict = dictionary.token2id  # {词:id}
                # print 'word_id_dict:'
                # print len(word_id_dict)

最低0.47元/天解锁文章

优惠劵

腾阳

关注关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
自然语言处理爬过的坑：基于爬虫抓取的语料，使用gensim建设dictionary、corpus、tfidf_model并保存成文件

# 生成字典和向量语料 dictionary = corpora.Dictionary([corpora_documents]) #print(dictionary) # print 'dfs:', dictionary.dfs # 字典词频，{单词id，在多少文档中出...
复制链接

扫一扫