![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
蓝天0809
努力学习中
展开
-
自然语言处理之snownlp
snownlp是一个很方便的自然语言处理库1、安装方式:pip install snownlp2、常见用法包括分词、词性标注、断句、情感分析、转化为拼音、转化为繁体、关键字抽取、概括总结、TFIDF词频分析,相似性分析等3、利用seg可以进行分词,词性标注,情感分析训练from snownlp import segseg.train('data.txt')seg.save('seg.marshal')from snownlp import tagtag.train('199801.txt'原创 2020-05-13 19:39:34 · 2323 阅读 · 0 评论 -
利用tfidf、gensim计算文本相似度
文本相似度分析的过程:文本分词、语料库制作、算法训练以及结果预测主要工具:Jieba分词、gensim制作语料并进行算法训练import jiebaimport gensim#分词并获取词袋函数(为每个出现在语料库中的单词分配一个独一无二的整数编号ID)string=['少年强则国强','少年智则国智']text_list=[]for sentence in string: s_list=[word for word in jieba.cut(sentence)] tex原创 2020-05-12 09:29:22 · 1530 阅读 · 0 评论 -
jieba.analyse+词性标注+统计出场次数+sklearn计算tfidf值
import jieba.analysesentence = '全国港澳研究会会长徐泽在会上发言指出,学习系列重要讲话要深刻领会 主席关于香港回归后的宪制基础和宪制秩序的论述,这是过去20年特别是中共十八大以来"一国两制"在香港实践取得成功的根本经验。首先,要在夯实 香港的宪制基础、巩固香港的宪制秩序上着力。只有牢牢确立起"一国两制"的宪制秩序,才能保证"一国两制"实践不走样 、不变形。其次,要...原创 2020-05-14 09:11:05 · 2258 阅读 · 0 评论