IKAnalyzer中文分词,计算句子相似度 - 两只蜗牛 - 关注生活,关注旅游 - 开源

本文介绍了IKAnalyzer,一个基于Java的中文分词工具,它提供了对Lucene的优化实现。文章展示了使用IKAnalyzer进行分词的代码,并讲解了基于语义和词序的句子相似度计算方法,包括语义向量和词序向量的构建及相似度计算。还提供了一个简单的测试示例,展示相似度计算的结果。
摘要由CSDN通过智能技术生成
IKAnalyzer中文分词,计算句子相似度 一、简介

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。独立于Lucene项目,同时提供了对Lucene的默认优化实现。(简介来源:百度百科)

二、准备

    项目结构:

    

    IKAnalyzer2012FF_u1.jar 下载

    lucene-core-4.6.1.jar 下载

    ext.dic

    stopword.dic

    IKAnalyzer.cfg.xml

三、分词

    分词由于比较简单,就直接粘贴代码了

public static Vector<String> participle( String str ) { Vector<String> str1 = new Vector<String>() ;//对输入进行分词 try {     StringReader reader = new StringReader( str );      IKSegmenter ik = new IKSegmenter(reader,true);//当为true时,分词器进行最大词长切分      Lexeme lexeme = null ;     while( ( lexeme = ik.next() ) != null ) { str1.add( lexeme.getLexemeText() );      }     if( str1.size() == 0 ) {      return null ;     }            //分词后     System.out.println( "str

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值