全文检索
wanhf11
无。
展开
-
倒排索引原理
单词文档矩阵(搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构)倒排索引基本概念文档(Document):一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖更多种形式,比如Word,PDF,html,XML等不同格式的文件都可以称之为文档。文档集合(Document Collection):由若干文档构成的集合称之为文档集合。比如原创 2016-03-11 21:32:14 · 2687 阅读 · 0 评论 -
Lucene 入门和简单封装
管理package com.whf.demo;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import java.util.List;import java.util.Set;import java.util.concurren原创 2016-03-06 09:17:52 · 943 阅读 · 0 评论 -
Lucene Suggest的使用
参考package com.whf.suggest;import java.io.Serializable;/** * 产品类 * * @author Lanxiaowei * */public class Product implements Serializable { /** 产品名称 */ private String name; /** 产品图片 *原创 2016-03-25 10:42:13 · 973 阅读 · 0 评论 -
实现实时索引基本原理
参考1 参考2 参考3原创 2016-08-15 17:30:52 · 573 阅读 · 0 评论 -
Lucene 分页排序
package org.digdata.swustoj.sort;import org.apache.lucene.search.Sort;import org.apache.lucene.search.SortField;/** * Created by wwhhff11 on 16-8-15. */public class LuceneSortFactory { /**原创 2016-08-15 21:41:53 · 1422 阅读 · 0 评论 -
Lucene 近实时索引
参考1 参考2 参考3原创 2016-08-18 10:11:44 · 409 阅读 · 0 评论 -
Lucene 面试
lucene 针对它的搜索方式有哪些?词项查询(TermQuery)/布尔查询(BooleanQuery)/短语查询(PhraseQuery)/范围查询(RangeQuery)/百搭查询(WildardQuery)/FuzzQuery(模糊)索引原理0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:H转载 2016-09-21 10:34:06 · 7993 阅读 · 1 评论 -
Lucene 分词的过程
创建索引的过程:索引原文件(Document)将原文档传给分词组件(Tokenzer)1.分割单词2.去除标点3.停用词过滤3.将词元(Token)传给语言组件(Linguistic Processor)1.变为小写Cars->cars2.将单词缩为词根cars->car将单词(Term)传给索引组件(Indexer)1.创建词典2.按字典排序3.合并相同的词成为文档倒排的链表原创 2016-03-24 15:05:24 · 399 阅读 · 0 评论