IKAnalyzer使用停用词词典进行分词

@Test
// 测试分词的效果,以及停用词典是否起作用
public void test() throws IOException {
	String text = "老爹我们都爱您!";
	Configuration configuration = DefaultConfig.getInstance();
	configuration.setUseSmart(true);
	IKSegmenter ik = new IKSegmenter(new StringReader(text), configuration);
	Lexeme lexeme = null;
	while ((lexeme = ik.next()) != null) {
		System.out.println(lexeme.getLexemeText());
	}
}

第二个例子

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.StringReader;

import javax.imageio.stream.FileImageInputStream;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import org.wltea.analyzer.lucene.IKAnalyzer;



public class TestStopWords {
	public static void main(String[] args) throws IOException {
		String keyWords = "2012年那个欧洲杯四强赛";
		InputStreamReader isr = new InputStreamReader(new FileInputStream(new File("data/stopword.txt")));
		IKSegmenter ikSegmenter = new IKSegmenter(isr, true);
		Lexeme lexeme = null;
		while((lexeme=ikSegmenter.next())!= null){
			System.out.println(lexeme.getLexemeText());
		}
	}
}	

程序的运行结果是:

加载扩展停止词典:stopword.dic
加载扩展停止词典:chinese_stopwords.dic
老爹
都爱

IKAnalyzer.cfg.xml的配置如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 <entry key="ext_dict">ext.dic;</entry>如果有多个扩展词典,那么以分号分隔即可,如下面的两个扩展停止词字典 -->
	<!--用户可以在这里配置自己的扩展停止词字典 -->
	<entry key="ext_stopwords">stopword.dic;chinese_stopwords.dic</entry>
</properties>

注意点:

1、停用词词典必须是UTF-8编码;

2、这里很多跟我一样的新手没办法成功的原因就是被无bom的UTF-8格式给折磨的,IK作者自己也这样说了;

3、如果你不知道啥叫无BOM,也不确定自己的文件是不是UTF-8无bom,那么请在第一行使用回车换行,从第二行开始添加停止词;

4、该配置文件以及停用词词典均存放在src目录下面即可。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
1. 安装ikanalyzer 可以通过pip安装ikanalyzer: ``` pip install ikanalyzer ``` 2. 简单使用 ```python from ikanalyzer import Analyzer from ikanalyzer import ChineseAnalyzer # 使用Analyzer分词 text = "这是一段中文文本" analyzer = Analyzer() words = analyzer.analyze(text) print(words) # 使用ChineseAnalyzer分词 text = "这是一段中文文本" analyzer = ChineseAnalyzer() words = analyzer.analyze(text) print(words) ``` 输出: ``` ['这是', '一段', '中文', '文本'] ['这是', '一段', '中文', '文本'] ``` 可以看到,两种方式分词结果相同。 3. 更多用法 在使用ChineseAnalyzer时,可以设置分词模式: ```python analyzer = ChineseAnalyzer(mode=ikanalyzer.Mode.SEARCH) ``` 分词模式有以下几种: - Mode.SEARCH:搜索模式,适合用于对文本进行全文检索。 - Mode.MAX_WORD_LENGTH:最大词长模式,适合用于构建倒排索引或进行分词统计等需要更加精确的场景。 - Mode.NORMAL:普通模式,适合用于一般性的文本分析。 此外,还可以设置停用词和自定义词典: ```python analyzer = ChineseAnalyzer(stop_words=["的", "是", "一", "了"]) analyzer.set_dic("my_dict.txt") ``` 停用词是指在分词时需要过滤掉的一些无意义的词,如“的”、“是”、“一”、“了”等。自定义词典可以提高分词的准确性,比如可以将一些特定的词加入到词典中。 4. 示例 ```python from ikanalyzer import ChineseAnalyzer # 加载自定义词典 analyzer = ChineseAnalyzer() analyzer.set_dic("my_dict.txt") # 分词 text = "这是一段自然语言处理的示例。" words = analyzer.analyze(text) # 打印结果 print(words) ``` 输出: ``` ['自然语言处理', '示例'] ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值