文本挖掘
Houser_qihao
记录自己
展开
-
简单文本挖掘(一)、词云(自定义形状)
词汇组成类似云的彩色图形,觉得这是可视化效果最直观的图表之一。--------------------------------------------------------------------------------具体代码如下: 自己代码:from wordcloud import WordCloudimport osfrom os import pathimpo...原创 2018-07-26 17:09:22 · 5542 阅读 · 0 评论 -
简单文本挖掘(二)、关键词及主体模型
做一个简单的jieba分词,然后提取top个关键词,最后获取主题模型。代码:import pandas as pdimport jieba as jiebafrom jieba import analysefrom jieba import possegimport gensimimport warningswarnings.filterwarnings('ignore')...原创 2018-07-26 17:23:41 · 1807 阅读 · 0 评论 -
简单爬虫+词云+主体模型
从小说网上爬取一篇章节,获取本章节的关键词top,主题模型,做出词云图像。原网站小说如下: 代码如下:#调用获取网页信息的库from urllib import request#筛选网页信息from bs4 import BeautifulSoupfrom jieba import analyseimport pandas as pdimport jiebafrom...原创 2018-07-26 17:46:44 · 737 阅读 · 0 评论 -
(一)jieba的基本用法收录
jieba中文处理¶和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 1.基本分词函数与用法¶ ...原创 2018-07-27 08:04:05 · 1724 阅读 · 0 评论 -
使用jieba分词的不同模式
jieba是一个功能十分强大的中文分词库一般长用的分词方法有俩种模式:全模式、精确模式str = '中国科学院,我想去北京故宫博物馆!'# 全模式all = ' '.join(jieba.cut(str,cut_all=True))#精确模式acc = ' '.join(jieba.cut(str,cut_all=False))print(all)中国 中国科学院 科学 科...原创 2018-07-27 20:01:19 · 4222 阅读 · 0 评论