python练习之 ---单词统计+热词统计+前10个单词统计的几种求法

本文探讨了在Python中进行单词统计的各种方法,包括基本方法、优化技巧以及使用正则表达式,旨在通过分析大量文本数据提取高频词汇,适用于舆情和热点分析。提供了一个文本链接供进一步学习。
摘要由CSDN通过智能技术生成

单词统计

在分析数据过程中,单词统计应用很广,尤其是提取海量文本中出现最多次数的词,往往可以进行舆论,热点等分析,应用非常广泛.

图片

下面将针对一个文本进行单词热词统计,其中列出多种求解过程,一起交流学习,欢迎下下方留言讨论.

文本素材

链接:https://pan.baidu.com/s/1cpbZVl3x_sCHeMWDbicOhA
提取码:g9qr

源码分析

方法一 —最基本方法

from pathlib import Path  # 导入Path 模块
from collections import  defaultdict
basedir = Path('d:homework/answer/third/')
filename = basedir/'sample.txt'
# d = {}
d = defaultdict(lambda :0) # defaultdict ()内部需要的是一个函数
# 不存在则返回一个value 为0 的键值对
with open(filename,encoding= 'utf-8')as f :
    for line in f :  # 安行读取
        words = line.split()# 分割字符串
        # for word in words:
        for word in map(lambda x:x.lower(),words):  # 使用map函数将单词转化为小写
            d[word]=d.get(word,0)+1
print(sorted(d.items(),key = lambda x:x[1],reverse= True))  # 对字典元素进行排序,但是排序的关键词是value值
# 提取字典中所有含有path的键,这样就可以看出所以含有目标值的键,便于接下来的分割
print(ilter (lambda key :key.find('path')> -1,d.keys()))

方法二 —简单优化

from pathlib import Path

from collections import  defaultdict
basedir = Path('d:homework/answer/third/')
filename = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值