![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
Love鱼小鱼
这个作者很懒,什么都没留下…
展开
-
LDA实例
jieba+gensim 参考 scikit-learn 参考 一. jieba + gensim from gensim import corpora, models import jieba.posseg as jp, jieba # 文本集 texts = [ '美国教练坦言,没输给中国女排,是输给了郎平', '美国无缘四强,听听主教练的评价', '中国女排晋级世锦赛四强,全面解析主教练郎平的执教艺术', '为什么越来越多的人买MPV,而放弃SUV?跑一趟长途就知道.原创 2020-12-26 22:59:05 · 410 阅读 · 1 评论 -
新闻数据分词、词性标注、TF-IDF、词频统计、词云
参考文章 一. 思路 利用pandas读取csv文件中的新闻数据,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 利用jieba分词工具的posseg包,同时实现分词与词性标注 利用停用词表对分词结果进行过滤 将分词结果以20000条为单位写入txt文档中,便于后续的词频统计以及词云制作 将最终的分词结果与词性标注结果存储到csv文件中 二. 流程 2.1 jieba分词与词性标注 import pandas as pd import jieba.posseg as pseg, j.原创 2020-12-26 21:58:58 · 1569 阅读 · 0 评论 -
Whoosh + jieba 中文检索
本文参考简书:Whoosh + jieba 中文检索 Whoosh官方文档入口 一. 核心对象 1.1 index对象和Schema对象 index对象是一个全局索引,在创建index对象前首先要声明index对象的一些属性,这些属性通过Schema对象进行包装。Schema对象有很多Fields,每个Field都是index对象的一个信息块,即需要被我们检索的内容。 创建Schema对象时需要用关键字来映射Field name和Field type,如title=TEXT 创建好Schema对象后,.原创 2020-12-18 19:55:05 · 313 阅读 · 0 评论