Python 统计一本书中的词汇量(小程序)

目标:统计一本书中的词汇量

打开Alice in wonderland.txt文件。将内容打散为单词列表。
去掉单词列表中的重复单词。
统计该列表长度,将该列表存储为文件。

import re
word_bank = []
try:
    with open('doc/Alice in wonderland.txt','r') as f:
        content = f.read().lower()
        content_clean = re.sub('[,.!:?\"();\[\]\-*]','',content)#去掉标点符号
        words = content_clean.split()#把长字符串分割为单词列表
        print(len(words))
        word_bank = list(set(words))#去掉重复元素
        word_bank.sort()#排序
        print(len(word_bank))

        with open('doc\word_of_Alice_in_wonderland.txt','w') as newfile:
            for word in word_bank:
                newfile.write(f'{word}\n')
            print('finish:)')
    
except FileNotFoundError:
    print('Not found.')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值