云计算项目实战 之分词管理

第一部分 需求分析

什么是中文分词

  中文分词  (  Chinese Word Segmentation)  指的是将一个汉字序列切分成一个一个单独的词
  中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
什么是庖丁词汇
  Paoding  (庖丁解牛分词)基于  Java  的开源中文分词组件,提供  lucene    solr  接口,具有极   高效率  和   高扩展性
  采用基于   不限制个数  的词典文件对文章进行有效切分,使能够将对词汇分类定义
  庖丁系统是个完全基于  lucene  的中文分词系统,它就是新建了一个  analyzer,  叫做  PaodingAnalyzer    这个  analyer 的核心任务就是生成一个可以切词  TokenStream 
  仅支持  Java  语言。
功能需求
  庖丁词汇初始化
  分词表的基本维护与查询
第二部分: 技术点
安装与配置庖丁分词
  下载庖丁最新的  Jar
  https  ://code.google.com/p/paoding
  将字典文件装载到本地的某个文件夹
  例如  /home/test/  dic
    paoding-analysis.properties  放在  resources  文件下或者修改  jar  包内该配置文件,指定
  paoding.dic.home  =/home/test/  dic
基本使用演示

Analyzer a = new PaodingAnalyzer();

String doctext = test  test;

 

TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

 

Token k = null;

 while((k = token.next != null){

    System.out.println(k);

  }

 

 

关键词

作用:生成用画像时候的一个元素

 

Keyword_keywordId

rowkey:

keyword!`!keywordid

C_FAMILY

data


 

Keywordid_keyword

rowkey:

keywordid!`!keyword

C_FAMILY

data

部分 代码实现

请参考视频和源码

 


私塾在线原创独家云计算课程
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值