Python文本解析之字符统计与词频排序

本文探讨了如何使用Python进行文本处理,包括字符的统计和词汇频率的排序,详细介绍了相关的方法和步骤。
摘要由CSDN通过智能技术生成

一、文本字符统计 

fr = open('兰亭集序.txt','rt',encoding='utf-8')
fw = open('兰亭集序-字符统计.txt','wt',encoding='utf-8')
txt_str = fr.read().strip().strip('\n')#不统计空格和回车'\n'

#遍历文本字符串,把字符、数量写入字典键值对
#把字符、数量分别存入列表
##key_list = []
##value_list = []
txt_dict = {}
parse_ls = []
for item in txt_str:
    if item not in txt_dict.keys():
##        key_list.append(item)#列表为可变数据类型
##        value_list.append(txt_str.count(item))
        txt_dict[item] = txt_str.count(item)
    else:
        continue
else:
    print('统计完成!')
        
#是否有把2个列表的元素赋给字典{key:value}={字符:数量}的方法?
#txt_dict[key_list] = value_list

#统计结果写入csv
for key in txt_dict:
    parse_ls.append("{}:{}".format(key,txt_dict[key]))
fw.write(','.join(parse_ls))
print('写入完成!')
fr.close()
fw.close

二、文本词频排序

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值