0x00 前言
找不到要写什么东西了!今天有个潭州大牛讲师 说了个 文本词频分析
我基本上就照抄了一遍
中间遇到一些小小的问题 自我百度 填坑补全了 如下 :
效果演示
0x01 准备环境及介绍
python3.x版本 随意
安装jieba库
pip install jieba
jieba三种模式:
1.精准模式 lcut函数,返回一个分词列表
2.全模式
3.搜索引擎模式
词频:
:的键值对
IPO描述 imput output process
输入 :从文件读取三国演义的内容
处理 :采用jiedb进行分词,字典数据结构统计词语出现的频率
输出 :文章中出现最对的前10个词
代码:
第一步:读取文件
第二步:分词
第三步:统计
第四步:排序
介绍完毕了!那么进入实战吧!
0x02 实战
完整代码如下:
1 importjieba2
3 content = open('三国演义.txt', 'r',encoding='utf-8').read()4 words =jieba.lcut(content)#分词
5 excludes={"将军"