Python利用结巴模块统计《水浒传》词频

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:

基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 
下面利用结巴分词队水浒传的词频进行了统计

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Python进行《水浒传》的词频统计是一种常见的文本分析方法。可以通过分词工具jieba对文本进行分词处理,然后统计每个词语出现的频率。 在给定的代码中,使用了jieba库对《水浒传》文本进行了分词处理,然后使用字典counts记录词语出现的频率。在统计过程中,排除了一些无效词语,比如“两个”、“一个”、“只见”等,同时对于相同对象的不同称谓进行了同一化处理。 最后,按照词语的频率进行排序,并输出前十个高频词汇。 因此,使用Python进行《水浒传词频统计的代码如下所示: ```python import jieba excludes = {"两个","一个","只见","如何","那里","哥哥","说道","军马","头领","众人","这里","兄弟","梁山泊","出来","小人","今日","这个","先锋","三个","因此","人马","问道","起来","便是","妇人","好汉","不是","不知","不曾","只是","如此","次日","我们","不得","如今","看时","不敢","来到","且说","一面","只得","山寨","原来","将军","却是"} txt = open("水浒传.txt","r",encoding='gb18030', errors='ignore').read() words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue elif word == "宋江道" or word == "宋江": rword = "宋江" else: rword = word counts[rword = counts.get(rword, 0) + 1 for word in excludes: del(counts[word]) items = list(counts.items()) items.sort(key=lambda x:x<span class="em">1</span><span class="em">2</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值