![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python自然语言处理
猫小咪编程
不忘初心
展开
-
python实现简单问答
import jiebaimport refrom gensim import corpora,models,similaritiesimport pandas as pd载入用户词典jieba.load_userdict('userdict.txt')创建停用词表def stopwordslist(filepath): stopwords=[line.strip() for line in open(filepath,'r',encoding='utf-8').readline原创 2020-09-04 17:16:11 · 1435 阅读 · 0 评论 -
NLTK--词性标注
tag标注说明import nltkfrom nltk.tag import pos_tagfrom nltk.tokenize import word_tokenize1.词性标注器text=word_tokenize('And now for something completely different')print(pos_tag(text))out:[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'),原创 2020-07-10 11:49:59 · 6129 阅读 · 1 评论 -
LDA主题模型进阶
其实我在TF-IDF和gensim实现主题提取写过LDA关于LDA的理论相关知识以后有机会阐释import numpy as npfrom gensim import corpora,models,similaritiesfrom pprint import pprint #打印出来的更好看1.构建停用词列表def load_stopword(): f_stop=open('stopword.txt') sw=[line.strip() for line in f_stop]原创 2020-07-08 11:24:23 · 570 阅读 · 0 评论 -
TF-IDF和gensim实现主题提取
主题抽取经过分词、单词清洗、词干提取后,基于TF-IDF算法可以抽取一段文本中的核心主题词汇,从而判断出当前文本的主题。属于无监督学习。gensim模块提供了主题抽取的常用工具 。主题抽取相关API:import gensim.models.ldamodel as gmimport gensim.corpora as gc# 把lines_tokens中出现的单词都存入gc提供的词典对象,对每一个单词做编码。line_tokens = ['hello', 'world', ...]dic =原创 2020-06-15 15:20:14 · 1377 阅读 · 0 评论 -
自然语言处理之TF-IDF
词频(TF)单词在句子中出现的次数除以句子的总词数称为词频。即一个单词在一个句子中出现的频率。词频相比单词的出现次数可以更加客观的评估单词对一句话的语义的贡献度。词频越高,对语义的贡献度越大。对词袋矩阵归一化即可得到词频。案例:对词袋矩阵进行归一化import nltk.tokenize as tkimport sklearn.feature_extraction.text as ftimport sklearn.preprocessing as spdoc = 'The brown dog i原创 2020-06-15 15:15:22 · 434 阅读 · 0 评论 -
自然语言处理工具包 - NLTK
文本分词分词处理相关API:import nltk.tokenize as tk# 把样本按句子进行拆分 sent_list:句子列表sent_list = tk.sent_tokenize(text)# 把样本按单词进行拆分 word_list:单词列表word_list = tk.word_tokenize(text)# 把样本按单词进行拆分 punctTokenizer:分词器对象punctTokenizer = tk.WordPunctTokenizer() word_lis原创 2020-06-15 14:59:35 · 412 阅读 · 0 评论 -
NLTK健康领域英文文本分词、词性标注、词频统计
import reimport numpy as npimport pandas as pdimport nltk.tokenize as tkimport nltk.corpus as nchandel_file = 'health_handel.csv' #分词好要保存的数据文件路径#读取数据data=pd.read_excel('health.xlsx')print(dat...原创 2020-04-21 23:41:29 · 1147 阅读 · 5 评论