lucene自定义停用词分词器和mmseg中文分词器

最新推荐文章于 2021-02-21 19:12:16 发布

weixin_34015566

最新推荐文章于 2021-02-21 19:12:16 发布

阅读量89

点赞数

文章标签： java

原文链接：http://blog.51cto.com/soukenan/1122724

版权

import java.io.Reader;
import java.util.Set;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LetterTokenizer;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.util.Version;
import org.junit.Test;
public class MyStopAnalyzer extends Analyzer {
private Set stops;
public MyStopAnalyzer(){
//原来的停用词
stops = StopAnalyzer.ENGLISH_STOP_WORDS_SET;
}
public MyStopAnalyzer(String[] sws){
//会自动将字符串数组转换为set
stops = StopFilter.makeStopSet(Version.LUCENE_35, sws, true);
//将原来的挺用词加入到现有的停用词集合
stops.addAll(StopAnalyzer.ENGLISH_STOP_WORDS_SET);
}
@Override
public TokenStream tokenStream(String fieldName, Reader reader) {
return new StopFilter(Version.LUCENE_35,
new LowerCaseFilter(Version.LUCENE_35,
new LetterTokenizer(Version.LUCENE_35, reader)),stops);
}
}

import org.apache.lucene.analysis.Analyzer;
import org.junit.Test;
public class TestMyStopAnalyzer {
@Test
public void test04(){
Analyzer mya = new MyStopAnalyzer(new String[]{"I","you"});
String txt = "thank you ,how are you? i love you";
AnalyzerUtil.displayToken(txt, mya);
}
}

import java.io.IOException;
import java.io.StringReader;
import javax.swing.text.AttributeSet.CharacterAttribute;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.apache.lucene.util.Version;
import org.junit.Test;
public class AnalyzerUtil {
public static void displayToken(String txt,Analyzer a){
TokenStream ts = a.tokenStream("content", new StringReader(txt));
//位置增量的属性，存储词汇单元之间的距离
PositionIncrementAttribute pia = ts.addAttribute(PositionIncrementAttribute.class);
//每个词汇单元的位置偏移量
OffsetAttribute oa = ts.addAttribute(OffsetAttribute.class);
//存储每一个与会单元的信息（分词单元信息）
CharTermAttribute ca = ts.addAttribute(CharTermAttribute.class);
//是用的分词器的类型信息
TypeAttribute ta = ts.addAttribute(TypeAttribute.class);
try {
while(ts.incrementToken()){
System.out.println(ca.toString()+" positionincrement:"+pia.getPositionIncrement()+" "+"offset:"+oa.startOffset()+"-"+oa.endOffset()+" type:"+ta.type());
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("-----------");
}
}

mmseg中文分词器的使用，在这里我是用的分词器是1.8.5

import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.junit.Test;
import com.chenlb.mmseg4j.analysis.MMSegAnalyzer;
public class TestMMsegAnalyzer {
@Test
public void test01(){
Analyzer msgA = new MMSegAnalyzer();
String txt = "白云山我来自中国，你好，我叫大工,";
AnalyzerUtil.displayToken(txt, msgA);
}
}

转载于:https://blog.51cto.com/soukenan/1122724

weixin_34015566

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34015566 CSDN认证博客专家 CSDN认证企业博客

码龄9年

153: 原创

-: 周排名

72万+: 总排名

138万+: 访问

: 等级

7646: 积分

4875: 粉丝

336: 获赞

18: 评论

2200: 收藏

私信

关注

热门文章

最新评论

京东手机商品详情页技术解密
weixin_m1132442666: 京东到家能不能实现多账号对一个商品批量下单
爬取百度地图 POI 数据
nandou_xinxi: 这个能用吗，我就想简单导出一下公司要的数据
mcollective插件（shell plugins）功能在Linux系统上无所不能
挨-踢菜菜: mco插入的时候，双引号不显示，很是尴尬
明天面试？吓得我赶紧手写了一个Spring
兔子也发飙: 代码过期了吗
用vmware运行简单的引导代码
猿来如此丫: 这个为什么引导程序启动的时候会有乱码？求解答 CODE SEGMENT ASSUME CS:CODE start:mov ax,cs mov es,ax //使附加段和代码段为一个段 mov ss,ax call DispStr DispStr:mov ax,offset BootMessage mov bp,ax //将BootMessage定义的字符串地址的偏移量给bp mov cx,13 //输出字符的个数 mov ax,01301h //AH=13 AL=01， mov bx,000ch // mov dl,0 int 10h //调用BIOS的10H中断，AL=写模式，BH=页码，BL=颜色，CX=字符串长度，DH=行，DL=列，ES:BP=字符串偏移量 ret BootMessage:db "This is my OS" times db 510-($-offset start) dup(0) //将本语句后到510字节的代码段空间用0填充 dw 0aa55h //最后两个字节填入AA55 CODE ENDS END START

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。