第一部分: 需求分析
什么是中文分词
•
中文分词
(
Chinese Word Segmentation)
指的是将一个汉字序列切分成一个一个单独的词
•
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
什么是庖丁词汇
•
Paoding
(庖丁解牛分词)基于
Java
的开源中文分词组件,提供
lucene
和
solr
接口,具有极
高效率
和
高扩展性
•
•
采用基于
不限制个数
的词典文件对文章进行有效切分,使能够将对词汇分类定义
•
•
庖丁系统是个完全基于
lucene
的中文分词系统,它就是新建了一个
analyzer,
叫做
PaodingAnalyzer
,
这个
analyer
的核心任务就是生成一个可以切词
TokenStream
。
•
•
仅支持
Java
语言。
功能需求
•
庖丁词汇初始化
•
分词表的基本维护与查询
第二部分: 技术点
安装与配置庖丁分词
•
下载庖丁最新的
Jar
•
https
://code.google.com/p/paoding
•
•
将字典文件装载到本地的某个文件夹
•
例如
/home/test/
dic
•
•
将
paoding-analysis.properties
放在
resources
文件下或者修改
jar
包内该配置文件,指定
•
paoding.dic.home
=/home/test/
dic
基本使用演示
Analyzer a = new PaodingAnalyzer();
String doctext = “test test”;
TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));
Token k = null;
while((k = token.next) != null){
System.out.println(k);
}
关键词
作用:生成用画像时候的一个元素
Keyword_keywordId
rowkey: | keyword!`!keywordid |
C_FAMILY | data |
Keywordid_keyword
rowkey: | keywordid!`!keyword |
C_FAMILY | data |
第三部分: 代码实现
请参考视频和源码
私塾在线原创独家云计算课程