自然语言处理
学zaza
从本科毕业至今,从事数据分析,与大数据处理,熟悉spark,storm等主流大数据处理框架
展开
-
配置Hanlp
菜鸟如我开始使用Hanlp中文分词中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。下载jar、property和d原创 2017-12-11 22:17:00 · 3056 阅读 · 0 评论 -
顺序遍历docx文档
顺序遍历doc文档的核心代码如下:from docx import Document from docx.document import Document as _Document from docx.oxml.text.paragraph import CT_P from docx.oxml.table import CT_Tbl from docx.table import _Cell, Tab原创 2017-12-27 14:16:22 · 1306 阅读 · 1 评论