- 博客(2)
- 资源 (9)
- 问答 (1)
- 收藏
- 关注
原创 中文分词
1. 下载 lucene-2.9.1 和 ictclas4j 修改ictclas4j里的丢字的BUG 2. 代码package com.lucene.tools;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;
2009-11-18 18:25:00 650
转载 搜索引擎的中文分词技术
搜索引擎的中文分词技术 中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式是不同的,这是因为中文信息与英文信息有一个明显的差别: 英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,我们主要关心中文自动
2009-11-18 12:03:00 1557 1
java中哪个容器搜索速度最快
2009-07-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人