使用Python统计日本核污染水排海话题的词频

一、前期准备

1.将以下文章内容复制拷贝到到word:

日本正式启动核污染水排海,海鲜还能吃吗? (qq.com)https://mp.weixin.qq.com/s/R3_D0K4O7l-HLasEcg1TgQ

2.安装依赖包:

python-docx、jieba、pandas

二、Python代码

import docx
import jieba
from collections import Counter
import pandas as pd

'''
1.读取docx文件
Document对象:一个docx文件
paragraphs对象:每个段落
text对象:文本
'''
doc = docx.Document(r"C:\Users\Wendy\Desktop\python.docx")
content = "".join([para.text for para in doc.paragraphs])

'''
2.将doc内容按中文标点符号划分
'''
seg_list = jieba.cut(content,cut_all=False)   # 把句子按字词标点符号分开
seg_list = [word for word in seg_list if len(word)>1]  # 把标点符号过滤掉,只保留字词

'''
3.统计词频
'''
counter = Counter(seg_list)
# print(type(counter))  # counter class迭代器
# for key,count in counter.items():
#     print(key,count)

'''
4.把counter转换为df,按词频高低排序
'''
df = pd.DataFrame(counter.items(),columns=["word","count"])
df = df.sort_values(by="count",ascending=False,ignore_index=True)
print(df.head(10))

结果如图:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值