Python3.5+PyQt5词频统计(一)

一、需求分析


统计给定英文文档中单词出现的频率,要求速度快、准确率高,有良好的交互界面,初期实现简单的分词、统计功能,不考虑词形变换等复杂情况,中期要实现相对简单的词形还原任务,后期实现复杂的词形变换还原(需要较强的自然语言处理能力,暂不考虑)

二、环境搭建


所需环境推荐工具
Python编程工具PyCharm 2016.2
Python版本Python 3.5
PyQt版本PyQt5
界面设计QtDesigner
打包程序pyinstaller

1. 官网下载安装Python3.5
2. 官网下载安装PyCharm
3. 可以在PyCharm打开setting>Project Interpreter>点击加号搜索PyQt5直接安装,其他安装方式请自行搜索
4. 下载Qt5.7安装,自带QtDesigner和QtCreator
注意事项
网上搜索许多PyQt教程,他们的PyQt5中一般自带QtDesigner程序,不知道为什么我的没有,所以只好下载完整的Qt5.7安装包
5. PyInstaller支持Python3,cx_Freeze暂不支持

三、测试案例


使用1M、20M、100M的txt文档,1M、100M的doc文档,50M的docx文档,一个小型的数字文档测试对数字分词的准确率

第一次次测试文档

第二次测试文档

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值