19-python 自己建立词库并实现文章汉语词频统计

首先在网上下载一个汉语词典的txt文件, 汉语词典

1.用正则去掉词语的解释,即提取出所有汉语词语;

import re
def getHanYuCi(st):
   p = re.compile(r'【.*?】') # 挑选出: [汉字]
   rt = p.findall(st)
   
   p = re.compile(r'[\u4E00-\u9FA5]+') # 去掉【】:只保留汉字;  *:前一个字符0次或无限次; +:表示1次或无限制
   rt = p.findall(str(rt))
   #print(str[0:1000])
   return rt

def test_1():
    path = r'C:\Users\sss\Desktop\hanyucidian.txt'
    with open(path, 'rb') as f:
        st = f.read().decode('gb18030')
        
    rt = getHanYuCi(st)
    dict = {}
    for x in rt:
        dict[x] = 0 
    #print('+++++++++++++')
    #print(len(rt))
    #print(rt) #  由于rt特别大,直接print不会读出任何东西,但只读某一段时可以读出来
    #print(rt[1:10])
    path = r'C:\Users\sss\Desktop\hanyu_ci.txt'
    with open(path, 'w') as f:
        f.write(str(dict))

test_1()


    

  

 

转载于:https://www.cnblogs.com/zhumengdexiaobai/p/9664191.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值