用Python实现统计一篇英文文章内每个单词出现频率

最新推荐文章于 2024-07-12 16:16:27 发布

weixin_30402085

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量1.4k

点赞数 1

文章标签： python 开发工具

原文链接：http://www.cnblogs.com/hxiaoli/p/8393002.html

版权

def get_file_words(path, num):
    """
        用Python实现统计一篇英文文章内每个单词出现频率，并返回出现频率最高的10个单词及其出现次数，并解答以下问题
        1)创建文件对象f后，解释f的readlines和xreadlines方法的区别？
        2)追加需求，引号内元素需要算作一个单词，如何实现？

    :return:
    """
    list_words = []

    obj_file = open(path, "r")
    text = obj_file.read()
    obj_file.close()

    # 引号内元素需要算作一个单词,先用引号切分，偶数再划分单词，奇数直接算作一个单词加入列表
    list_text = text.split('"')
    for i in range(0, len(list_text), 2):
        #
        list_words += re.split("[0-9\W]+", list_text[i])
        if i+1 < len(list_text):
            list_words.append(list_text[i+1])

    obj_count = Counter(list_words)
    result = obj_count.most_common(num)
    #print(list_words)

    return result

if __name__ == '__main__':
    print(get_file_words("aa.txt", 10))

转载于:https://www.cnblogs.com/hxiaoli/p/8393002.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30402085

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用Python实现统计一篇英文文章内每个单词出现频率

def get_file_words(path, num): """ 用Python实现统计一篇英文文章内每个单词出现频率，并返回出现频率最高的10个单词及其出现次数，并解答以下问题 1)创建文件对象f后，解释f的readlines和xreadlines方法的区别？ 2)追加需求，引号内元素需要算作一个单词，如何实现？ ...
复制链接

扫一扫