1.01^365=37.78 (Lucene、ES、ELK开发交流群: 370734940)

Engineers are versatile minds who create links between science, technology, and society

《从Lucene到Elasticsearch:全文检索实战》已出版!

一、前言 决定在CSDN写博客的原因是想把自己解决过的问题、踩过的坑、总结出来的经验记录下来,作为编程之路的“笔记本”,同时也能给遇到同样问题的人提供参考、节省时间,写书的初衷也一样。 二、缘起 说一下写书的前因后果。中国科学院大学雁栖湖校区是很重要的一年,师资团队无可挑剔,每次上课去的...

2017-12-05 01:48:47

阅读数:5781

评论数:17

[搜索]Lucene仿百度文库文件检索系统

一、准备文件2016中国人工智能大会 顶尖专家齐聚.pptx 2016中国人工智能大会 大咖云集探讨人工智能.doc 2016中国人工智能大会在京召开.docx JavaScript闭包详解.docx 如何使用JSON.doc 中国人工智能大会CCAI 2016圆满落幕.pdf 中科院副院长:人工...

2016-10-01 10:24:21

阅读数:3236

评论数:10

Lucene索引合并

@Test public void mergeIndex() throws IOException { Analyzer analyzer=new HanLPAnalyzer(); IndexWriterConfig icw = new IndexW...

2018-08-24 15:07:35

阅读数:64

评论数:2

Jackcard相似度和余弦相似度(向量空间模型)的java实现

Jackcard相似度和余弦相似度(向量空间模型)的java实现

2017-04-12 00:08:02

阅读数:3724

评论数:1

TF-IDF词项权重计算

一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要. 词元权重计算公式: tf-idf=tf(t,d)*log(N/df...

2017-03-23 21:46:51

阅读数:3523

评论数:1

Lucene扩展停用词字典与自定义词库

介绍如何在Lucene 6.0中扩展停用词,如何通过自定义字典把"厉害了我的哥"分成一个词

2017-02-04 18:23:51

阅读数:5064

评论数:2

Lucene 6.0 提取新闻关键词Top-N

一、需求 给出一篇新闻文档,统计出现频率最高的有哪些词语。 二、思路 关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索引的过程,词条化会从文本中去除标点符号、停用词等,最后生成词项。在代码...

2017-01-11 19:47:00

阅读数:5318

评论数:2

Lucene 6.0中BooleanQuery

Lucene 6.0中BooleanQuery创建和之前的不太一样,4.3版本的创建BooleanQuery:BooleanQuery bQuery=new BooleanQuery(); bQuery.add(new TermQuery(new Term("ti...

2016-11-08 00:41:35

阅读数:3781

评论数:0

lucene索引的删除和更新

Lucene索引的删除和更新删除和更新和新增一样,也是通过IndexWriter 对象来操作的,IndexWrite对象的deleteDocuments ()方法用于实现索引的删除,updateDocument()方法用于实现索引的更新。删除Lucene索引删除索引的代码如下,该示例实现了根据Te...

2016-11-07 23:09:21

阅读数:7368

评论数:0

Lucene 6.0下使用IK分词器

Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类:MyIKTokenizer.javaimport java.io.IOException; import java.io.R...

2016-07-14 18:34:16

阅读数:7132

评论数:5

scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)

一、选题工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类。 要求: 有相关搜索推荐、snippet 生成、结果预览 (鼠标移到...

2016-05-22 22:51:12

阅读数:13436

评论数:14

Lucene 查询(Query)子类

QueryParser(单域查询)QueryParser子类对单个域查询时创建查询query,构造方法中需要传入Lucene版本号,检索域名和分词器。QueryParser parser = new QueryParser(Version.LUCENE_43, field, analyzer);/...

2016-04-24 22:14:31

阅读数:5430

评论数:0

Lucene查询结果高亮

检索结果高亮对于用户的体验度和友好度非常重要,可以快速标记出用户检索对关键词。本例中的索引仍使用上一篇博客( Lucene查询索引)中创建的索引,代码高亮参考了Lucene4.x高亮 fast高亮 前端高亮。实现效果:核心代码package ucas.ir.lucene;import java.i...

2016-04-23 13:04:43

阅读数:4116

评论数:8

Lucene查询索引

Lucene简介和怎样创建索引可以参考我前面的两篇博客Lucene全文检索基础和Lucene创建索引,索引创建以后可以使用luke(使用和Lucene版本相对应的Luke版本,比如Lucene版本是4.3,那么使用4.3 版本的Luke)查看。索引创建以新闻文档为例,每条新闻是一个document...

2016-04-22 11:07:41

阅读数:3689

评论数:1

lucene创建索引

上篇博客写了信息检索的基本知识和lucene架构,这篇博客记录一下如何在eclipse中创建索引. 1.lucene下载. 下载地址:http://archive.apache.org/dist/lucene/java/. lucene不同版本之间有不小的差别,这里下载的是lucene 4....

2015-12-15 00:29:30

阅读数:3140

评论数:2

lucene全文检索基础

信息检索整体流程 一次完整的搜索从用户输入要查询的关键词开始,比如想查找lucene的相关学习资料,我们都会Google或百度中输入关键词,比如输入“lucene, 全文检索框架”,之后系统根据用户输入的关键词返回相关信息。一次检索大致可分为四步:

2015-12-15 00:28:31

阅读数:2258

评论数:1

提示
确定要删除当前文章?
取消 删除