文本挖掘
spartanfuk
爬虫、ML、AI
展开
-
python自定义背景画词云
python画词云主要用到四个库,jieba:用于分词;matplotlib:基础的画图库;wordcloud:生成词云对象;imageio:读取背景图片。安装方法均可使用 pip install 库名 进行在线安装。wordcloud库要是不能使用pip进行安装,就先下载,然后再用pip install 下载好库的储存路径 进行安装。python开源库的下载网址:https://www.lfd....原创 2018-09-08 14:37:47 · 10853 阅读 · 0 评论 -
python进行分词、去停用词和统计词频
数据的下载链接:链接:https://pan.baidu.com/s/1IyOJfpCu4HRqCmTrVI7b8Q 密码:52u7import jieba #用jieba库进行分词#读取数据text = open('Walden.txt','r',encoding='utf-8').read()len(text)#全部字符变成小写字符text = text.lowe...原创 2018-09-08 13:51:55 · 19409 阅读 · 1 评论 -
python构建词向量分析《笑傲江湖》人物之间的关系
首先进行jieba分词,去除停用词;然后通过正则表达式去除无关字符,构建词向量;最后提取小说的所有人名并画图展示出来。import jiebaimport refrom gensim.models import Word2Vec#读取数据file = open(r'笑傲江湖.txt',encoding = 'utf-8')text = file.readlines()file...原创 2018-09-11 10:43:27 · 3136 阅读 · 4 评论