关闭
当前搜索:

Lucene扩展停用词字典与自定义词库

介绍如何在Lucene 6.0中扩展停用词,如何通过自定义字典把"厉害了我的哥"分成一个词...
阅读(3718) 评论(2)

Lucene 6.0 提取新闻关键词Top-N

一、需求给出一篇新闻文档,统计出现频率最高的有哪些词语。二、思路关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索引的过程,词条化会从文本中去除标点符号、停用词等,最后生成词项。在代码中实现的思路是使用IndexReader的getTermVector获取文档的某一个字段的Terms,从terms中获取...
阅读(3874) 评论(0)

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一机器环境 二配置SSH免密码登录 三安装Hadoop 273 1下载Hadoop 2运行Hadoop单机模式 3 Hadoop伪分布式模式 31修改hadoop-envsh 32修改core-sitexml 33修改mapred-sitexmltemplate 34修改hdfs-sitexml 4启动hadoop 41格式化hdfs 42启动Hadoop 四安装Hbase 124 1 Hbase下...
阅读(5957) 评论(3)

从0开始搭建SVN服务器

机器环境:Win7 64位 Eclipse:Neon.1a Release (4.6.1) 在Win7上安装SVN server作为搭建代码服务器,在另外一台机器上提交代码进行测试。一、SVN服务器配置1.1下载与安装到VISUALSVN SERVER官网下载SVN服务器安装包,下载地址:https://www.visualsvn.com/server/download/下载后一路下一步,之后启...
阅读(4762) 评论(11)

Elasticsearch 5.1.1搜索高亮及Java API实现

5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。 注:从这篇博客开始,采用简写的代码风格,也就是Sence插件或者kibana的dev tools中采用的风格。(温馨提示:安装kibana 5.1.1,在dev tools中直接可以使用简单格式命令。)一、创建索引文档结...
阅读(12914) 评论(12)

Elasticsearch 5 Ik+pinyin分词配置详解

一、拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示:拼音分词是根据输入的拼音提示对应的中文,通过拼音分词提升搜索体验、加快搜索速度。下面介绍如何在Elasticsearch 5.1.1中配置和实现pinyin+iK分词。二、IK分词器下载与安装关于IK分词器的介绍不再多少,...
阅读(18665) 评论(15)

Elasticsearch 5.1.1 head插件安装指南

Elasticsearch 5.1.1 head插件安装指南一、下载安装包下载Elasticsearch 5.1.1下载地址:https://www.elastic.co/downloads/elasticsearchzip和tar格式是各种系统都通用的,解压之后启动Elasticsearch即可。下载elasticsearch-head下载地址:https://github.com/mobz/el...
阅读(26663) 评论(18)

Elasticsearch 5.X下JAVA API使用指南

Elasticsearch 5.0下Java API使用指南一.2.X到5.XElasticsearch 2.x使用java api把elasticsearch安装包下的lib文件夹下的jar文件全部加入到工程类路径即可,换到5.x就不适用了.创建Clien的代码:Settings settings = Settings.builder().put("cluster.name", "elastics...
阅读(32079) 评论(48)

Elasticsearch分析聚合

Elasticsearch不仅仅适合做全文检索,分析聚合功能也很好用。下面通过实例来学习。一、准备数据{"index":{ "_index": "books", "_type": "IT", "_id": "1" }} {"id":"1","title":"Java编程思想","language":"java","author":"Bruce Eckel","price":70.20,"year":...
阅读(6352) 评论(0)

远程文件拷贝命令scp的用法

scp命令用途scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个: 拷贝本机文件到远程服务器 拷贝远程服务器上的文件到本地 它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。scp命令格式scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l li...
阅读(1247) 评论(0)

导入Logstash日志到Elasticsearch

导入logstash日志到Elasticsearch 一、logstash是什么? Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。 当然它可以单独出现,作为日志收集软件,你可以收集日志到多种存储系统或临时中转系统,如MySQL,redis,kakfa,HDFS, lucene,s...
阅读(6429) 评论(0)

大数据基础之常用Linux命令

大数据实验环境一般为Linux,熟悉Linux操作非常有必要,总结常用Linux命令如下。1.cd命令进入文件夹:cd dirname 进入多级文件夹:cd /usr/local/Cellar 返回上层目录:cd ../ 返回上层的上层:cd ../../ 回到主文件夹cd 2.ls命令ls命令用于列出当前文件和目录,加上参数之后可以做更多的事情。 不带参数运行ls会列出文件和目录ls 使用-l参...
阅读(2974) 评论(0)

解决linux下root运行Elasticsearch异常

在CentOS 6.5 上运行Elasticsearch 2.3,异常如下:Exception in thread "main" java.lang.RuntimeException: don't run elasticsearch as root. at org.elasticsearch.bootstrap.Bootstrap.initializeNatives(Bootstr...
阅读(9767) 评论(4)

Elasticsearch java client 获取mapping

通过java客户端获取mapping:package elasticsearch.in.action.client;import java.net.InetAddress; import java.net.UnknownHostException;import org.elasticsearch.client.transport.TransportClient; import org.elastic...
阅读(4112) 评论(1)

Lucene 6.0中BooleanQuery

Lucene 6.0中BooleanQuery创建和之前的不太一样,4.3版本的创建BooleanQuery:BooleanQuery bQuery=new BooleanQuery(); bQuery.add(new TermQuery(new Term("title", "lucene")), Occur.MUST); bQuery.add(new...
阅读(2621) 评论(0)

lucene索引的删除和更新

Lucene索引的删除和更新删除和更新和新增一样,也是通过IndexWriter 对象来操作的,IndexWrite对象的deleteDocuments ()方法用于实现索引的删除,updateDocument()方法用于实现索引的更新。删除Lucene索引删除索引的代码如下,该示例实现了根据Term来删除单个或多个Document,删除title中包含关键词“美国”的文档:import java....
阅读(4400) 评论(1)

Elasticsearch Java API(十)--Multi Get API

使用multi get API可以通过索引名、类型名、文档id一次得到一个文档集合,文档可以来自同一个索引库,也可以来自不同索引库。示例如下: MultiGetResponse multiGetItemResponses = client.prepareMultiGet() .add("twitter", "tweet", "1") //注释1...
阅读(2212) 评论(3)

[搜索]Lucene仿百度文库文件检索系统

一、准备文件2016中国人工智能大会 顶尖专家齐聚.pptx 2016中国人工智能大会 大咖云集探讨人工智能.doc 2016中国人工智能大会在京召开.docx JavaScript闭包详解.docx 如何使用JSON.doc 中国人工智能大会CCAI 2016圆满落幕.pdf 中科院副院长:人工智能 找风口不如找关口.txt 二、搜索框三、搜索结果页声明: 本博客拒绝转载!...
阅读(2915) 评论(9)

Elasticsearch索引管理

1.判断索引是否存在IndicesExistsResponse indexResponse = ia.client.admin().indices().prepareExists("blog") .execute().actionGet();System.out.println(indexResponse.isExists());也可以同时判断多个索引是否存在:IndicesExistsRespon...
阅读(3271) 评论(2)

搭建Elasticsearch 5.4分布式集群

一、集群角色多机集群中的节点可以分为master nodes和data nodes,在配置文件中使用Zen发现(Zen discovery)机制来管理不同节点。Zen发现是ES自带的默认发现机制,使用多播发现其它节点。只要启动一个新的ES节点并设置和集群相同的名称这个节点就会被加入到集群中。Elasticsearch集群中有的节点一般有三种角色:master node、data node和clien...
阅读(31483) 评论(10)
214条 共11页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    《从Lucene到Elasticsearch:全文检索实战》
    Lucene、ES、ELK开发交流群:370734940
    Lucene、ES、ELK开发交流
    个人资料
    • 访问:874914次
    • 积分:8871
    • 等级:
    • 排名:第2493名
    • 原创:206篇
    • 转载:2篇
    • 译文:6篇
    • 评论:463条
    StackOverFlow
    http://stackoverflow.com/users/6526424
    统计
    博客专栏
    文章分类
    最新评论