lucene
一直学习
这个作者很懒,什么都没留下…
展开
-
lucene中StandardAnalyzer的理解
先看看下面几个概念:分析器Analyzer分词器Tokenizer过滤器FilterTokenizer负责把词分开Filter负责对分开的词进行处理Analyzer包装组合Tokenizer和Filter以满足特定的分词需求力琦已经写了几种不同的WhitespaceAnalyzer();SimpleAnalyzer();StopAnalyzer();StandardAnalyzer();其中前三个转载 2009-09-09 14:04:00 · 8571 阅读 · 2 评论 -
Lucene 中文分词的理解
中文与西方文字不同,西方文字如英文的单词间有空格作为分隔,计算机很容易把一个个词分开。而中文句子里的之间没有分隔,要把中文句子拆分成词就需要使用中文分词技术。由于全文索引采用的是倒排索引技术,所以分词的效果直接决定了搜索的效果。目前的中文分词技术主要有:n元切分、最长匹配、最大压缩、统计语言模型等方法。n元切分,即机械切分。就是把中文句子每n个字分成一个“词”。比 如,“我是大学生”用一元切分的结转载 2009-09-09 14:13:00 · 1108 阅读 · 0 评论 -
Lucene.NET 1.9 基本用法
Lucene.NET 1.9 基本用法本文仅记录一些简单的使用方法,供初学者参考。 以下例子采用 Lucene.NET 1.9 版本,可取去 Lucene.Net 下载。 1. 基本应用 using System; using System.Collections.Generic; using System.Text; using Lucene.Net; using Lucene.Net.An原创 2009-09-09 17:34:00 · 976 阅读 · 0 评论 -
lucene 错误 no segments* file found in org.apache.lucene.store.FSDirectory@ write.lock
开的时候 以为是 程序没有读写权限 后来网上查到相关资料writer = new IndexWriter(DIR, new StandardAnalyzer(), false);writer = new IndexWriter(DIR, new StandardAnalyzer(), true);在索引没有建立前,使用增量索引时,会发生这个异常在索引建立时使用wri原创 2012-02-07 15:27:19 · 3902 阅读 · 0 评论 -
Lucene.Net2.9(中科院分词.net 版) DEMO
中科院分词 ICTCLAS 的 .net 版本 是吕震宇1.0版本开发 Lucene.Net2.9 接口 ICTCLASAnalyzer .cs using System;using System.Collections.Generic;using System.Linq;using System.Web;using System.IO;using原创 2012-02-09 18:05:31 · 2129 阅读 · 1 评论 -
Lucene.NET 实时更新索引
更新(添加) protected void btnUpdate_Click(object sender, EventArgs e) { Boolean EnableCreate = true; if (System.IO.File.Exists(index + "\\segments.gen"))原创 2012-02-17 15:15:42 · 3029 阅读 · 1 评论 -
LUCENE.net 优化方案
现在的程序在创建 5万条索引的时候要用 1个小时 而且索引文件总大小已经超过了4G 对文章内容 content 内容搜索的时候特别的慢。 我们想做的是让索引文件瘦下来,让创建索引和查询速度快起来 查询速度解决方法:1.创建索引的时候 对content 进行 HTML剔除,并且截取一段,不全保存,搜索的时候对 文章关键字和内容关键字搜索。这样做的 优点原创 2012-03-01 10:10:54 · 846 阅读 · 0 评论 -
百度搜索结果的调整
原创 2012-03-14 16:06:02 · 645 阅读 · 0 评论