Python Show-Me-the-Code 第 0004 题统计单词

最新推荐文章于 2023-03-03 08:00:47 发布

AngryBill

最新推荐文章于 2023-03-03 08:00:47 发布

阅读量1.4k

点赞数

分类专栏： Python 文章标签： python 统计单词

本文链接：https://blog.csdn.net/huangxiongbiao/article/details/45043253

版权

Python 专栏收录该内容

51 篇文章 0 订阅

订阅专栏

第 0004 题：任一个英文的纯文本文件，统计其中的单词出现的个数。

思路：用正则表达式匹配响应的单词和数字，然后让Counter计算单词的词频，再用most_common方法返回一个按照词频排序的包含该词语和该词语出现的次数的元组的列表。

0004.统计单词.py

#!/usr/bin/env python
#coding: utf-8
import re
from collections import Counter
FILESOURCE = '/home/bill/Desktop/testarticle'

def getMostCommonWord(articlefilesource):
    '''输入一个英文的纯文本文件，统计其中的单词出现的个数'''
    pattern = r'''[A-Za-z]+|\$?\d+%?$'''
    with open(articlefilesource) as f:
        r = re.findall(pattern,f.read())
        return Counter(r).most_common()

if __name__ == '__main__':
    print getMostCommonWord(FILESOURCE)

这里写图片描述

其中的文章是随便从BBC上选的一篇新闻

优惠劵

AngryBill

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python Show-Me-the-Code 第 0004 题统计单词

第 0004 题：任一个英文的纯文本文件，统计其中的单词出现的个数。思路：用正则表达式匹配响应的单词和数字，然后让Counter计算单词的词频，再用most_common方法返回一个按照词频排序的包含该词语和该词语出现的次数的元组的列表。0004.统计单词.py#!/usr/bin/env python#coding: utf-8import refrom collections import
复制链接

扫一扫