jieba库词频统计_Python 文本分析-使用jieba库来做词频统计

在使用Python进行文本分析时,常常需要进行词频统计,除了词云图,我们还经常想要计算研究所关注的词汇在总词汇中的比重,这可以使用jieba库做词频统计来实现。

  • 文本词频统计代码实现
import jieba import refrom collections import Counterimport jsonimport matplotlib.pyplot as plt stopfile=open(r'C:甥敳獲全球价值链.txt', 'r', encoding='UTF-8').read() stopfile = stopfile.replace(" ","")stoplist = stopfile.split('') words = [x for x in jieba.lcut(stopfile) if len(x) >= 2 and x not in stoplist] top10 = Counter(words).most_common(10) print(json.dumps(top10, ensure_ascii=False)) # 画出柱状图 plt.rcParams['font.sans-serif'] = ['SimHei'] c=top10plt.rcParams['font.family']='sans-serif' name_list=[x[0] for x in c] num_list=[x[1] for x in c] b=plt.bar(range(len(num_list)), num_list,tick_label=name_list)
  • Jupyter Notebook返回结果
  • [["制造业", 221], ["我国", 171], ["价值链", 144], ["全球", 112], ["创新", 77], ["促进", 75], ["发展", 71], ["政策", 71], ["研究", 69], ["出口", 63]]
9e0d1ac76463f8e1cd5cb77c2fb4deea.png
  • 重点词汇在总词汇中的比重代码实现
keywords = ['全球价值链','创新','产品质量','政策','位置','制造业']b=Counter(words)#提取重点词汇的频次wordsfreq = [b[x] for x in keywords]totalfreq = sum(wordsfreq) # 所有词语的总数s= sum(b.values())# 计算比重weight = totalfreq/sprint(keywords)print(wordsfreq)print(totalfreq)print(weight)
  • Jupyter Notebook返回结果
  • ['全球价值链', '创新', '产品质量', '政策', '位置', '制造业']
  • [0, 77, 25, 71, 14, 221]
  • 408
  • 0.07792207792207792
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在处理上市公司年报时,可以使用Python中的jieba进行关键词提取和词频统计的程序。以下是一个年报样例的处理步骤: 首先,我们需要将年报文本读入程序中。假设该年报的文本保存在一个名为"annual_report.txt"的文本文件中,我们可以使用Python的文件读取功能来读取该文件,将其内容存储在一个字符串变量中。 接下来,需要使用jieba库来进行中文分词。首先,我们需要使用jieba的初始化函数进行分词器的初始化,并加载自定义的词典(如果有)。然后,使用jieba的分词函数来对年报文本进行分词处理。分词结果可以保存在一个列表变量中。 之后,我们可以利用Python的数据结构来进行数据处理和统计。我们可以使用一个字典变量来存储每个关键词的词频统计结果。遍历分词结果列表,对每个分词进行判断,如果分词已经在字典中,我们就将对应的词频加1;如果分词不在字典中,我们就在字典中新增该关键词,并将其词频设置为1。 最后,我们可以按照词频进行排序,以便找出出现频率最高的关键词。可以使用Python的排序函数对字典进行排序,按照词频降序排列。然后,根据需要,可以选择前几个关键词进行输出显示。 综上所述,使用Python中的jieba可以实现上市公司年报的关键词提取和词频统计。这个程序可以帮助我们对年报进行数字化处理,并快速地获取关键信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值