云计算项目实战之分词管理

最新推荐文章于 2022-07-27 15:14:22 发布

cssddning

最新推荐文章于 2022-07-27 15:14:22 发布

阅读量1k

点赞数 2

本文链接：https://blog.csdn.net/u013019926/article/details/17371961

版权

第一部分：需求分析

什么是中文分词

• 中文分词 ( Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词

• 中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果

什么是庖丁词汇

• Paoding （庖丁解牛分词）基于 Java 的开源中文分词组件，提供 lucene 和 solr 接口，具有极高效率和高扩展性

•

• 采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义

•

• 庖丁系统是个完全基于 lucene 的中文分词系统，它就是新建了一个 analyzer，叫做 PaodingAnalyzer ，这个 analyer 的核心任务就是生成一个可以切词 TokenStream 。

•

• 仅支持 Java 语言。

功能需求

• 庖丁词汇初始化

• 分词表的基本维护与查询

第二部分：技术点

安装与配置庖丁分词

• 下载庖丁最新的 Jar

• https ://code.google.com/p/paoding

•

• 将字典文件装载到本地的某个文件夹

• 例如 /home/test/ dic

•

• 将 paoding-analysis.properties 放在 resources 文件下或者修改 jar 包内该配置文件，指定

• paoding.dic.home =/home/test/ dic

基本使用演示

Analyzer a = new PaodingAnalyzer();

String doctext = “test test”;

TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

Token k = null;

while((k = token.next) != null){

System.out.println(k);

}

关键词

作用：生成用画像时候的一个元素

Keyword_keywordId

rowkey:	keyword!`!keywordid
C_FAMILY	data

Keywordid_keyword

rowkey:	keywordid!`!keyword
C_FAMILY	data

第三部分：代码实现

请参考视频和源码

私塾在线原创独家云计算课程

cssddning

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
云计算项目实战之分词管理

第一部分：需求分析什么是中文分词• 中文分词 ( Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词• 中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果什么是庖丁词汇• Paoding （庖丁解牛分词）基于 Java 的开源中文分词组件，提供 lucene 和
复制链接

扫一扫