Python利用结巴模块统计《水浒传》词频

最新推荐文章于 2022-10-25 10:56:23 发布

try2035

最新推荐文章于 2022-10-25 10:56:23 发布

阅读量1.8k

点赞数

文章标签： python

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法
下面利用结巴分词队水浒传的词频进行了统计

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

try2035

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

简单的结巴分词与词频统计

zhangmary的博客

06-10

3457

#!/usr/bin/env python # -*- coding: utf-8 -*- import re import sys import jieba import json from collections import Counter reload(sys) sys.setdefaultencoding("utf-8") filename = "rowss.txt" f1 = open...

用python统计水浒传中的高频词汇

qq_43458650的博客

04-12

4738

用python统计水浒传中的高频词汇 #词频统计.py import jieba excludes = {"两个","一个","只见","如何","那里","哥哥","说道","军马","头领","众人","这里","兄弟","梁山泊","出来","小人","今日","这个","先锋","三个","因此","人马","问道","起来","便是","妇人","好汉","不是","不知","不曾","只是","如此","次日","我们","不得","如今","看时","不敢","来到","且说","一面","只

参与评论您还未登录，请先登录后发表或查看评论

jieba统计词频

xiaobai_IT_learn的博客

10-17

939

1.jieba统计词频 # -*- coding: UTF-8 -*- import numpy as np import pandas as pd import jieba import jieba.analyse import codecs #设置pd的显示长度 pd.set_option('max_colwidth',500) #载入数据 rows=pd.read_csv('datas1...

NLP算法-基于 Jieba 的词频统计

Albert_weiku的博客

10-25

2624

在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。一个词语出现的次数越多，越表明是该文件的核心词汇，该词语对于快速理解文章具有重要的意义。词频统计是自然语言处理技术中最基础的技术之一，在词频统计中，如何区分词是很关键的一环。

python学习文本词频统计hamlet三国演义

04-10

在Python编程领域，词频统计是一项基础且重要的任务，它涉及到自然语言处理（NLP）和数据挖掘。在这个项目中，我们关注的是如何使用Python来分析文本中的词频，特别是针对"hamlet.txt"和"三国演义.txt"这两部文学...

上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例

12-13

综上所述，利用Python和jieba库对上市公司年报进行数字化处理和关键词词频统计，是现代数据分析的重要工具，能够帮助我们更深入地理解公司的运营状况和行业趋势，从而做出更为明智的投资或策略决策。

python利用多种方式来统计词频（单词个数）

09-19

### Python 多种方法统计词频详解 #### 引言在数据分析与自然语言处理领域，统计词频是一项基础但非常重要的任务。Python作为一种强大的编程语言，提供了多种简便的方式来完成这项工作。本篇文章将深入探讨如何...

统计词频和生成词云python程序

01-03

近期因为工作需要，想利用python实现中分词频统计，然后生成图云的小程序。此前完全没有接触过这一块，各种百度后实现最初的需求，这里上传源码，希望能给其他小伙伴一点参考。

Python-[jieba库应用]-统计水浒传中人物出现次数

12-21

最近被线段树一卡，卡的我啥也不会了，也就一个星期没写博客。正巧女朋友学python，之前也跟着凑凑热闹，正巧最近问了我一个题：如何用jieba库统计水浒传人物出现得次数，并且输出前20名得人物。想了想直接暴力不久完了，管他多暴力呢文章目录思路预先处理代码部分运行结果思路主要思路：其实就是用jieba库先将文章进行拆分，然后我们创建一个字典，用来统计每个人物出现得次数，当然这里可能就会出现一个问题了，有些不是人名得词语也会被统计上，那怎么办呢？我们可以先将人名输入到一个列表当中，循环记录次数得时候判断人名是否存在在列表当中（我认为很暴力）预先处理 1. 什么？你要将水浒传所有人名

python词频统计实验报告_Python实验报告八

weixin_39684898的博客

02-04

3559

安徽工程大学Python程序设计班级：物流191姓名：汤振宇学号：319050108成绩：日期：2020/06/04指导老师：修宇【实验目的】：掌握读写文本文件或 CSV 文件，进而对数据进行处理的方法。【实验条件】：PC机或者远程编程环境【实验内容】：完成二个编程题。1)水浒传词频统计水浒传-词频统计描述使用词频统计的方法，生成《水浒传》出场次数最多的10个人物的姓名。‪‬‪‬‪‬‪‬‪‬...

2021-11-12

weixin_46258180的博客

11-12

743

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、实验目的和要求导入jieba库 2）掌握jieba库中lcut方法二、实验内容程序1：使用词频统计的方法，生成《

python分析《水浒传》小说，对文本数据内容清洗、分词、统计、词云可视化展示

Together_CZ的博客

05-10

1万+

《水浒传》这个名字说起来估计看到这篇博文的朋友都不会陌生到哪里去，这是我们中国古代四大名著之一，非常的引人入胜，今天想基于《水浒传》的小说数据来做一点分析工作。由于用到的整部小说数据过大无法一次发表，这里只将本文用到的电子小说数据的第一章节贴在下面，感兴趣的都可以拿过去玩一玩： ===========================================...

Python-继人物词频统计三国演义之后-三国词云（Wordcloud）

热门推荐

STAR_LORD

08-24

1万+

首先说明wordcloud库，词云库 import wordcloud#首先创建词云对象，给参数 w = wordcloud.WordCloud() 参数还是挺多的，主要用到的：如果有中文，一定要设置字体路径，否则出来都是框框，宽高随意，mask可以指定生成的形状，需要载入图片，背景白色，稍后提到，max_words可以设置单词最大个数，默认200，后面是最小字体，最大字体，以及之间的步长...

水浒108将（按出场顺序）

weixin_33862041的博客

11-28

1192

1 九纹龙史进（史家庄少庄主） 2 神机军师朱武（少华山大寨主） 3 跳涧虎陈达（少华山二寨主） 4 白花蛇杨春（少华山三寨主） 5 花和尚鲁智深（鲁达，提辖） 6 打虎将李忠（卖艺，史进第一位师傅，后为桃花山寨主） 7 小霸王周通（桃花山寨主） 8 豹子头林冲（八十万禁军教头） 9 小旋风柴进（柴大官人，周世宗之后） 10 旱地忽律朱贵（梁山耳目，“忽律”即鳄鱼）...

用python分析四大名著之三国演义

程序人生的博客

02-25

1万+

点击上方“程序人生”，选择“置顶公众号”第一时间关注程序猿（媛）身边的故事项目起因及意义起初在浏览知乎时看见一篇文章觉得很有意思（用 Python 分析《红楼梦》），此文章较长，题主采用了一系列方法分析红楼梦前八十回和后四十回是否为同一个人所写，虽然题主贴上了部分实现的截图，我就想试着来实现一遍，但由于目前能力有限，一些机器学习算法不够了解，加上 python 又是刚刚学，所以我打算先结合《Pyt

python 利用jieba库词频统计

weixin_38166557的博客

07-12

371

1 #统计《三国志》里人物的出现次数 2 3 import jieba 4 text = open('threekingdoms.txt','r',encoding='utf-8').read() 5 excludes = {'将军','却说','二人','不能','如此','荆州','不可','商议','如何','军士','左右','主公','引兵','次日',...

python水浒传词频统计