数据库练习--pycharm进行词频提取并用xlwt导出excel表格

使用PyCharm进行大数据文本处理,包括读取文件、清理格式、提取词频,最终通过xlwt库将结果导出到Excel表格。虽然未进行词汇的P+N分析,但已完成基础的文本预处理和词频统计。
摘要由CSDN通过智能技术生成

作业名称:针对真是文本的处理联系

内容:1.读取文件不报错

2.清理文件,确保信息统一,正确格式无误(思考)

3.提取词频(对照,如{"art":100})的格式提取*****

4.再次清理清除无关词汇

5.进行词汇P+N分析(新知识点)(未进行进一步学习与应用,暂不做)

导出表格为:

代码如下: 

#导入数据到程序里
file=open("thrump.txt")
text=file.read()
cleantext=text.lower().strip().split()
for word in cleantext:
    if"," or "." in word:
        print(word[0:-1])
    elif"-"or " "in word:
        continue
    else:
        print(word)
import textblob

#20 排名前20的

#wordrate={}
#for word in cleantext:
#    if word not in wordrate:
#        wordrate[word]=1
#    else:
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值