Python 文本生僻字判定和拼音标注脚本

Python 文本生僻字判定和拼音标注脚本

出发点

  • 今年双十一期间入手了一本《淮南子》,之前在读大学的时候就在图书馆借阅且朗诵过,其文笔优美,寓意深刻,十分喜欢!《淮南子》是西汉皇室贵族刘安和他的门客编写的一本反映道教、阴阳家、法家、墨家等思想的黄老学派著作,《淮南子》一书中的“无为”政治学说和法治思想,强调按客观规律办事,提倡统治者要清心寡欲,勿夺民时。它的“民本”思想,“以实从事于宜”的自然观,影响了两千多年的中国历史。我们现在用的很多成语和典故都是出自于《淮南子》。在阅读过程中,发现很多生僻字不会念,在网上也没有查找到对应的注音版本,只能自己动手丰衣足食。借助pypinyin模块包和汉字编码表gbk,写了一个简单的文本拼音标注脚本。这个脚本根据文本词频和汉字笔画判定生僻字,然后标音。碰上古文再也不用为生僻字发愁啦!*

实践

from pypinyin import pinyin
import Bihua

class PyText:
    def __init__(self,f,num,maxBH,content):
        self.f = f
        self.num = num
        self.content = content
        self.maxBH = maxBH
        # 导入汉字笔画字典
        self.Bihua_dict = Bihua.Bihua_dict
        # 创建汉字频率字典
        self.dic_FOW = {
   }
        for i in self.content:
            if PyText.is_Chinese(i):
                self.dic_FOW.setdefault(i, 0)
                self.dic_FOW[i] = self.dic_FOW[i] + 1
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值