系统功能:
分词、词性标注、关键词提取、文本分类;
系统实现:
分词:使用jieba中文分词(去停用词,精确模式);
词性标注:使用jieba库里的posseg包进行词性标注;
关键词提取:使用tfidf的最合适前六个词;
文本分类:给复旦预料数据进行分词,生成词向量,装袋(词袋模型),接着训练集训练,多次调参,具体参数注释和代码中有,然后再选择相应测试预料进行测试,用的是skleran库的多项式朴素贝叶斯算法。(有参考其他博客)
图形界面:
import tkinter as tk
使用python内置的tkinter库作图进行交互。
打开本地文件按钮的实现方法:
window.mainloop()
必须要加这一句才能正常运行界面程序,大概是启动并持续刷新的意思。
具体代码(没有实现颜色的):
清屏:
关于打开ansi编码的txt文件并正常读取(utf-8)的方法:
关于前三个基本功能的实现:
关于关键词抽取:
参数解释:
(1)sentence :待提取的文本;
(2)topK :返回K个权重最大的关键词
(3)withWeight :是否返回权重
(4)allowPOS :是否仅包括指定词性的词
关于ui输入框获取数据传到后台的方法:
e是输入框变量。