基于Python的中文分词词性标注词频统计的实现
今天是2018年10月22号,小亮继续着自己深度学习与自然语言处理的打怪升级之路。今天给大家介绍一下最近接的小项目,基于Python的中文分词词性标注词频统计的实现,在这里与大家交流一下!
笔者信息:Next_Legend QQ:1219154092 机器学习 自然语言处理 计算机视觉 深度学习
小亮的博客:https://legendtianjin.github.io/NextLegend.github.io/ ——2018.10.22 于北洋
一、项目需求
该项目的背景领域是金融工程,处理语料是中文的金融方向的txt书籍,目的是检测出书中的名词与动词等关键信息,并标注词性、统计词频等信息,最后导出数据为Excel格式。下图是需要处理的txt文本数据以及小亮自己找的停用词文本: