python词频统计西游记_实例10-文本词频统计.pdf

最新推荐文章于 2024-05-27 19:03:25 发布

weixin_39945871

最新推荐文章于 2024-05-27 19:03:25 发布

阅读量835

点赞数

文章标签： python词频统计西游记

Python语言程序设计

实例10: 文本词频统计

嵩天

北京理工大学

"文本词频统计"问题分析

CC BY-NC-SA 4.0 嵩天

问题分析

文本词频统计

- 需求：一篇文章，出现了哪些词？哪些词出现得最多？

- 该怎么做呢？

英文文本中文文本

问题分析

文本词频统计

- 英文文本：Hamet 分析词频

https://python123.io/resources/pye/hamlet.txt

- 中文文本：《三国演义》分析人物

https://python123.io/resources/pye/threekingdoms.txt

"Hamlet英文词频统计"实例讲解

CC BY-NC-SA 4.0 嵩天

#CalHamletV1.py

def getText():

txt = open("hamlet.txt", "r").read()

txt = txt.lower()

for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':

txt = txt.replace(ch, " ")

return txt

hamletTxt = getText()

words = hamletTxt.split()

counts = {} - 文本去噪及归一化

for word in words:

counts[word] = counts.get(word,0) + 1 - 使用字典表达词频

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)

for i in range(10):

word, count = items[i]

print("{0:<10}{1:>5}".format(word, count))

>>>

the 1138

and 965

to 754

of 669

you 550

i 542

a 542 - 运行结果由大到小排序

my 514

- 观察单词出现次数

hamlet 462

in 436

准备好电脑，与老师一起编码吧！

" 《三国演义》人物出场统计"实例讲解(上)

CC BY-NC-SA 4.0 嵩天

#CalThreeKingdoms

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39945871

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python统计西游记主要人物出场次数（使用jieba分词）.zip

12-12

#Python统计西游记主要人物出场次数（使用jieba分词） 1. 建立西游记主要人物表及其别名； 2. 读入西游记原文txt文件并使用jieba分词； 3. 统计所有分词中出现各人名的次数。

python词频统计西游记_自学了一段时间Python,闲来无事爬了本《西游记》给大家分享下...

weixin_39722692的博客

12-06

580

[Python] 纯文本查看复制代码import requestsimport os,timefrom lxml import etreefrom fake_useragent import UserAgentdef get_html(url):ua = UserAgent()headers = {'UserAgent': ua.random}response = requests.get(ur...

参与评论您还未登录，请先登录后发表或查看评论

python词频统计西游记_使用python简单实现《西游记》文本分析，通过词频对比探索西游记的主角...

weixin_28834169的博客

02-04

3668

使用jieba模块简单统计西游记词频，并进行同义词处理(如合并行者，大圣为悟空)及排除词处理。[code]import jiebawith open('西游记.txt','r',encoding='utf-8') as f:content=f.read()words=jieba.lcut(content)counts={}#同义词处理for word in words:if len(word)=...

python统计西游记人物名字出现次数_Python文本统计功能之西游记用字统计操作

weixin_39895181的博客

12-04

4292

这篇文章主要介绍了Python文本统计功能之西游记用字统计操作,结合实例形式分析了Python文本读取、遍历、统计等相关操作技巧,需要的朋友可以参考下本文实例讲述了Python文本统计功能之西游记用字统计操作。分享给大家供大家参考，具体如下：一、数据xyj.txt，《西游记》的文本，2.2MB致敬吴承恩大师，4020行(段)二、目标统计《西游记》中：1. 共出现了多少个不同的汉字；2. 每个汉字出...

2018-06-29 "西游记"主题Python入门示例尝试-数据结构 5.1-5.1.2

weixin_30493401的博客

03-08

237

(见前: 中文代码示例视频演示Python入门第五章数据结构仍然基于官方文档, 欢迎建议(尤其是如何取材). 5. Data Structures - More on Lists 列表详述 >>> 人物 = ['佛', '妖', '凡人', '菩萨', '妖', '凡人'] >>> 人物.count('妖') 2 >>> 人物.count(...

Python文本统计功能之西游记用字统计操作示例

12-25

本文实例讲述了Python文本统计功能之西游记用字统计操作。分享给大家供大家参考，具体如下：一、数据 xyj.txt，《西游记》的文本，2.2MB 致敬吴承恩大师，4020行（段）二、目标统计《西游记》中： 1. 共出现了...

上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例

12-13

标题和描述中提到的知识点主要集中在使用Python的jieba库进行上市公司年报的数字化处理和关键词词频统计。这里，我们将详细探讨如何运用Python和jieba库来实现这一目标，以及为何这种技术对于理解和分析上市公司年报...

python实例45-用Python分析文本数据的词频.rar

02-16

这个实例“python实例45-用Python分析文本数据的词频.rar”显然是一个教学资源，旨在教授如何利用Python来统计文本中的词汇出现频率。下面，我们将深入探讨这个主题。首先，要进行文本数据分析，我们需要导入一些...

Python统计西游记妖怪出场次数(使用jieba分词)

weixin_51081062的博客

10-18

3535

import jieba monsters = ['国丈', '虎力大仙', '赛太岁', '鹿力大仙', '玉面公主', '白衣秀士', '九头虫', '黄风怪', '羊力大仙', '九灵元圣', '辟尘大王', '凌虚子', '黑鱼精', '如意真仙', '六耳猕猴', '美后', '黄狮精', '辟寒大王', '特处士', '老鼋', '寅将军', '辟暑大王', '灵感大王', '熊山君'] temp_list = [] f = open(r"西游记.txt", encoding="ut.

python最大分词_python运用jieba库统计《西游记》中相关分词出现次数最高的20个...

weixin_39603492的博客

11-25

1503

import jiebatxt = open("西游记.txt", "r", encoding='utf-8').read()words = jieba.lcut(txt) # 使用精确模式对文本进行分词counts = {} # 通过键值对的形式存储词语及其出现的次数for word in words:if len(word) == 1:continueelif word ==...

python deque索引超出范围_Python经典题型

weixin_39656513的博客

11-27

304

1 统计《西游记》中主要人物的出场次数1.1代码实现print("西游记人物出场次数如下：")import jiebaimport timestart = time.perf_counter()text = open("C:Python西游记.txt", "r", encoding="gb18030").read()excludes = {"一个", "那里", "怎么", "我们", "不知",...

统计西游记中人物出场频率前20

热门推荐

信息学奥赛

10-25

1万+

说明：运用集合对文本字符串列表去重，这样统计词汇不会重复，运用列表的counts方法统计频数，将每个词汇和其出现的次数打包成一个列表加入到word_list中，运用列表的sort方法排序，大功告成。

Python实现文本词频统计（嵩天老师）

m0_61903191的博客

04-02

8366

实例10：文本词频统计 引用文本英文文本：Hamet https://python123.io/resources/pye/hamlet.txt 中文文本：《三国演义》 https://python123.io/resources/pye/threekingdoms.txt

Python列表经典实例

zx980414k的博客

09-29

3957

Python列表经典实例 list1 = [] character = input("请输入西游记中你喜欢的人物:") while(character): list1.append(character) character = input("请输入西游记中你喜欢的人物:") for i in range(0,len(list1)): print(("你喜欢的人物是：%s")%list1[i]) 请输入西游记中你喜欢的人物:孙悟空请输入西游记中你喜欢的人物:猪八戒请输入西游记中你

Python语言程序设计----【第6周组合数据类型】之6.6 实例10: 文本词频统计

qq_36045093的博客

02-25

1239

一、问题分析文本词频统计 - 需求：一篇文章，出现了哪些词？哪些词出现得最多？ - 该怎么做呢？需要考虑的问题：英文文本与中文文本的处理有何不同文本选择及下载链接 - 英文文本： Hamet 分析词频 https://python123.io/resources/pye/hamlet.txt - 中文文本：《三国演义》分析人物 https://python123.io/resou...

用python统计《西游记》字数

qq_62147893的博客

06-26

315

统计《西游记》文本中:1.共出现了多少个不同的汉字;2.每个汉字出现了多少次;3.出现次数频繁的汉字有哪些;4.将统计结果保存到json文件中。1. 读文件2. 字典的使用3. 字典的排序4. 写文件。

jieba库词频统计_Python库中，如何使用jieba模块来实现古典名著《西游记》的分词...

weixin_39825872的博客

01-10

1375

接下来，我们将学习如何使用jieba模块来实现古典名著《西游记》的分词，并且会将书中重点人物出场次数以图形化的方式显示出来，并进一步创建一个词云图。17.4.1　读取文件因为小说《西游记》的内容非常长，我们不太可能会把它放到一个字符串中来操作，所以我们需要它保存在一个文件中。那么我们就需要操作整个文件，把文件中的内容读取出来。我们操作文件的流程是：1．打开文件，得到文件句柄并赋值给一个变量；2．通...

python统计西游记人物名字出现次数_Python文本统计功能之西游记用字统计操作示例...

weixin_39836536的博客

12-04

2558

本文实例讲述了Python文本统计功能之西游记用字统计操作。分享给大家供大家参考，具体如下：一、数据xyj.txt，《西游记》的文本，2.2MB致敬吴承恩大师，4020行(段)二、目标统计《西游记》中：1. 共出现了多少个不同的汉字；2. 每个汉字出现了多少次；3. 出现得最频繁的汉字有哪些。三、涉及内容：1. 读文件；2. 字典的使用；3. 字典的排序；4. 写文件四、效果五、源代码# codi...

python西游记词频统计

11-15

以下是Python实现《西游记》词频统计的代码和步骤： 1. 读取《西游记》文本文件 ```python with open('xyj.txt', 'r', encoding='utf-8') as f: text = f.read() ``` 2. 使用正则表达式去除文本中的非汉字字符 ...