python进行中文字频、高频字覆盖率统计

本文介绍使用Python对《孟子》进行字频统计,重点排除标点符号,计算高频字(字频>=500)覆盖率,并展示直观的输出结果。
摘要由CSDN通过智能技术生成

题目:用python统计《孟子》总体长度、字种、字频、高频字覆盖率。

《孟子》全文下载:点击下载

高频字:字频>=500的字

本题有三个地方要注意:

1、《孟子》中含有大量的标点符号,统计时应该把它们排除在外。

2、统计字频、高频字覆盖率是难点。

3、如何用相对直观、好看的方式打印输出结果。

源代码:

#《孟子》总体长度
f = open('ex_menzi.txt', 'r', encoding='utf-8')
text=f.read()
for ch in "《》,。:!‧「」『』〈〉;﹖.! \n?":
    text = text.replace(ch, "")                  # 去掉文章的标点符号
print("《孟子》的总体长度:", len(text))

#《孟子》字种
result = set(text)
print("《孟子》的字种:\n", result)
print("《孟子》的字种总长:", len(result))

#《孟子》字频
my_dict={}
for char in text:
    if char in my_dict:
        my_dict[char] = my_dict[char]+1
    else:
        my_dict[char] = 1

#《孟子》高频字的覆盖率
rate = {}                           
  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值