初学Python_词频统计

import collections
def get_words(file):
    with open (file) as f:
        word_box = []
        for line in f:
            word_box.extend(line.lower().strip().split())
        new_word_box = [] 
        for word in word_box:
            if word.isalpha():
                new_word_box.append(word)
            else:
                new_word = ''
                for letter in word:
                    if letter.isalpha():
                        new_word += letter
                if new_word != '':
                    new_word_box.append(new_word)
    return collections.Counter(new_word_box)

a = get_words(r'C:\Users\Administrator\Desktop\Article\emma.txt')
print(a.most_common(10))

    分词(此时一句话最后的单词会包含","和"."),进行如下判断:

              ------>不包含标点的(即全是字母组成的词)------->直接加入词袋

              ------->包括标点的词------>处理之后加入词袋

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值