使用python Jieba快速统计关键词词频

原创

已于 2022-07-20 11:21:57 修改 · 5.6k 阅读

94 ·

CC 4.0 BY-SA版权

文章标签：

#java #前端 #servlet

于 2022-07-20 09:51:59 首次发布

#!/usr/bin/python3
import jieba
file = open("ycyx.txt", "r", encoding='utf-8')
txt = file.read()
words = jieba.lcut(txt)
count = {}
for word in words:  # 使用 for 循环遍历每个词语并统计个数
    if len(word) < 1:  # 排除单个字的干扰，使得输出结果为词语
        continue
    else:
        count[word] = count.get(word, 0) + 1  # 如果字典里键为 word 的值存在，则返回键的值并加一，如果不存在键word，则返回0再加上1

exclude = ["可以", "", "这样"]  # 建立无关词语列表
for key in list(count.keys()):  # 遍历字典的所有键，即所有word
    if key in exclude:
        del count[key]  # 删除字典中键为无关词语的键值对
list = list(count.items())         # 将字典的所有键值对转化为列表
list.sort(key=lambda x: x[1], reverse=True)     # 对列表按照词频从大到小的顺序排序

for i in range(50):  #   此处统计排名前五的单词，所以range(5)
    word, number = list[i]
    print("关键字：{:-<10}频次：{:+>8}".format(word, number))

词云分析

import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud


# 1.读

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39140114

关注关注

11
点赞
踩
94

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python jieba库词频统计_jieba库的使用与词频统计

weixin_39822728的博客

12-08

3167

1、词频统计(1)词频分析是对文章中重要词汇出现的次数进行统计与分析，是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法，基本原理是通过词出现频次多少的变化，来确定热点及其变化趋势。(2)安装jieba库安装说明代码对 Python 2/3 均兼容全自动安装：easy_install jieba 或者 pip install jieba / pip3 install jie...

0023-python学习笔记：jieba库进行词频统计

m0_68750710的博客

04-16

7550

jieba库进行词频统计

2 条评论您还未登录，请先登录后发表或查看评论

Python对爬取微博的评论进行jieba分词和词频统计

04-27

使用Python，对爬取微博的评论，进行jieba分词，统计词频，修改路径即可。

python jieba词频统计_python 使用jieba 词频统计

weixin_39756235的博客

12-04

914

jieba库常用函数jieba.lcut(s) 精确模式，最常用jieba.lcut(s,cut_all=True)全模式，存在冗余jieba.lcut_for_search(s) 搜索引擎模式存在冗余jieba.add_word(w) 向分词词典增加新词w英文词频统计def getText():txt = open("罗密欧与朱丽叶.txt", "r").read()txt = txt.low...

Python学习笔记（七）：jieba库的使用+文本词频统计

lh2000dami的博客

03-09

8501

③ 将字典类型转换为列表类型，排序获得当前出现次数最高的单词和次数。① 定义函数对文本进行归一化处理：统一小写，去掉特殊符号换成空格。② 用字典类型对每个单词以及出现的次数机型映射对应。运行结果：不够准确，出现“二人”“孔明曰”等的统计。-利用一个中文词库，确定汉字之间的关联概率。把文本中所有可能的词语都扫描出来，有冗余。-汉字间概率大的组成词组，形成分词结果。-是中文分词的第三方库，需要额外安装。④ 对前十位出现的单词和次数进行打印。在精确模式的基础上，对长词再次切分。把文本精确的切分开，

python关键词统计_使用Python快速统计关键词及其词频

weixin_34109083的博客

01-29

4121

版权声明：转载附链接哦。https://blog.csdn.net/weixin_43886356/article/details/86711012思路：1.通过jieba库分词获取所有的词语列表；2.计算列表里出现词语及其对应的频次，存储为字典；3.删除字典中键为无关且频次高的词语的键值对；4.对字典里的词语按照频次进行排序；5.输出频次前五的词语及其频次；如果没有安装 jieba 库，需要使用...

上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例

12-13

标题和描述中提到的知识点主要集中在使用Python的jieba库进行上市公司年报的数字化处理和关键词词频统计。这里，我们将详细探讨如何运用Python和jieba库来实现这一目标，以及为何这种技术对于理解和分析上市公司年报...

使用Python快速统计关键词及其词频

热门推荐

芝士就是力量

01-31

1万+

思路： 1.通过jieba库分词获取所有的词语列表； 2.计算列表里出现词语及其对应的频次，存储为字典； 3.删除字典中键为无关且频次高的词语的键值对； 4.对字典里的词语按照频次进行排序； 5.输出频次前五的词语及其频次；如果没有安装 jieba 库，需要使用 cmd 进入命令提示符窗口，通过 pip install jieba 进行安装。源代码如下 import jieba file...

Python——jieba分词并统计词频

一克拉的小蚂蚁的博客

04-26

8453

1、连接数据库：本文数据库为MySql数据库，利用Python的MySqldb连接； 2、读取数据表evalute_info表中的评论内容； 3、利用jieba对评论内容进行分词，并统计词频； 4、将结果保存为csv文件。注：两个关键点：分词：jieba.cut()；词频：Counter(data) （利用collections包的Counter进行词频统计） # ...

基于Java的jieba分词统计词频

09-11

需要下载数据库可视工具(SQLyog)将text文件复制粘贴到数据库中,将压缩文件导入eclipse

python使用jieba分词，词频统计，基本使用

qq_63761767的博客

09-27

4949

python使用jieba分词，词频统计，基本使用

Python学习笔记--Jieba库文件词频统计

理想和你的博客

06-07

4206

今天介绍一下Python中第三方库-Jieba库的使用有时候我们是需要对文本中的单词的频率进行统计的常规的做法 #单词出现频率的统计 #将文本进行处理 def getText(): txt = open("text.txt","r").read() # 打开并读取所有的文件 txt = txt.lower() # 将文本中的所有字母都改成小写 for ch in...

python输出文本至文档_python jieba分词并统计词频后输出结果到Excel和txt文档方法...

weixin_39926014的博客

11-24

799

前两天，班上同学写论文，需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。让我帮她实现这个功能，我在网上查了之后发现jieba这个库还挺不错的。运行环境：安装python2.7.13：https://www.python.org/downloads/release/python-2713/安装jieba：pip install jieba安装xlwt：pip install xlwt具...

python 利用jieba库词频统计

weixin_38166557的博客

07-12

450

1 #统计《三国志》里人物的出现次数 2 3 import jieba 4 text = open('threekingdoms.txt','r',encoding='utf-8').read() 5 excludes = {'将军','却说','二人','不能','如此','荆州','不可','商议','如何','军士','左右','主公','引兵','次日',...

Python使用jieba库实现分词统计词频

qq_54070501的博客

04-13

1912

import jieba #获得去除标点的文本 def get_text(file_name): with open(file_name, 'r', encoding='utf-8') as fr: text = fr.read() #要删除的标点 del_ch = ['《','，','》','\n','。','、','；','"',\ '：',',','！','？',' '] for ch in del_ch: text = text.repl.

【Python】利用jieba库词频统计

weixin_46601559的博客

12-03

2026

源码： import jieba txt=open("F:\\作业\\2021年大三第一学期\\人工智能\\threekingdoms.txt","r",encoding="utf-8").read() excludes={"将军","却说","荆州","二人","不可","不能","如此","商议","如何","主公","军士", "左右","军马","引兵","次日","大喜","天下","东吴","于是","今日","不敢","魏兵", "陛下","一人

Python可以帮忙写作业？jieba专题——统计词频

lixinhe_4090的博客

03-10

720

用jieba库统计文本词频，快来试一试吧

Python jieba 分词+词频统计

Yao_Chuang的博客

09-21

1328

利用jieba进行分词 import jieba sentence = '橘子香蕉橙子苹果柚子橘子橙子柚子苹果火龙果橙子香蕉香蕉橘子橙子柚子苹果火龙果柚子苹果火龙果橙子香蕉柚子橘子橙子柚子苹果苹果柚子橘子橙子柚子苹果橙子柚子苹果火龙果橙子香蕉香蕉橘子橙子柚子苹果火龙果' seg = list(jieba.cut(sentence, cut_all=False)) print(seg) 词...

Python统计关键词词频