当前搜索:

MapReduce编程(三) 排序

MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下...
阅读(4622) 评论(1)

MapReduce编程(二) 文件合并和去重

MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。...
阅读(1658) 评论(0)

MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。...
阅读(6284) 评论(1)

Intellij Idea编译Elasticsearch源码

如果想阅读Elasticsearch源码,定制功能,不可避免的要编译Elasticsearch。本文图文并茂,介绍如何使用Intellij Idea编译Elasticsearch源码包。...
阅读(5070) 评论(1)

TF-IDF词项权重计算

一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要. 词元权重计算公式: tf-idf=tf(t,d)*log(N/df(t)) W(t,d):the weight of the term in document d tf...
阅读(2237) 评论(1)

ELK日志处理之使用Grok解析日志

介绍如何在logstash中使用Grok和正则表达式解析任意格式日志,以及Grok Debugger的使用。...
阅读(5420) 评论(0)

图解Elasticsearch中的_source、_all、store和index属性

Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该开启_all字段?本文通过图解和代码测试进行解析。...
阅读(8524) 评论(10)

ELK日志处理之使用logstash收集log4J日志

介绍logstash处理log4j日志,包括log4j的简介、工程的搭建、log4j配置、logstash配置,实现日志从产生到logstash再到Elasticsearch的整个流程。...
阅读(11775) 评论(2)

Elasticsearch整合Mysql新闻搜索

Elasticsearch整合Mysql,实现数据导入、全文搜索、搜索高亮、结果分页...
阅读(2379) 评论(20)

Elasticsearch Java API(十一)--聚合(aggregations)

Elasticsearch分析聚合介绍了分析聚合的REST命令,这篇博客介绍一下如何使用Java API。一、准备数据测试数据请参考我的上一篇博客:Elasticsearch分析聚合。二、需求查询title中包含关键字”程序”的文档,统计查询按编程语言分组,统计每组的文档数量。三、REST命令行REST命令行如下,有三部分,query查询所有title中包含关键词程序的文档,size指定返回结果中文...
阅读(3625) 评论(0)

Lucene扩展停用词字典与自定义词库

介绍如何在Lucene 6.0中扩展停用词,如何通过自定义字典把"厉害了我的哥"分成一个词...
阅读(3428) 评论(0)

Lucene 6.0 提取新闻关键词Top-N

一、需求给出一篇新闻文档,统计出现频率最高的有哪些词语。二、思路关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索引的过程,词条化会从文本中去除标点符号、停用词等,最后生成词项。在代码中实现的思路是使用IndexReader的getTermVector获取文档的某一个字段的Terms,从terms中获取...
阅读(3657) 评论(0)

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一机器环境 二配置SSH免密码登录 三安装Hadoop 273 1下载Hadoop 2运行Hadoop单机模式 3 Hadoop伪分布式模式 31修改hadoop-envsh 32修改core-sitexml 33修改mapred-sitexmltemplate 34修改hdfs-sitexml 4启动hadoop 41格式化hdfs 42启动Hadoop 四安装Hbase 124 1 Hbase下...
阅读(5524) 评论(3)

从0开始搭建SVN服务器

机器环境:Win7 64位 Eclipse:Neon.1a Release (4.6.1) 在Win7上安装SVN server作为搭建代码服务器,在另外一台机器上提交代码进行测试。一、SVN服务器配置1.1下载与安装到VISUALSVN SERVER官网下载SVN服务器安装包,下载地址:https://www.visualsvn.com/server/download/下载后一路下一步,之后启...
阅读(4680) 评论(11)

Elasticsearch 5.1.1搜索高亮及Java API实现

5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。 注:从这篇博客开始,采用简写的代码风格,也就是Sence插件或者kibana的dev tools中采用的风格。(温馨提示:安装kibana 5.1.1,在dev tools中直接可以使用简单格式命令。)一、创建索引文档结...
阅读(12126) 评论(12)

Elasticsearch 5 Ik+pinyin分词配置详解

一、拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示:拼音分词是根据输入的拼音提示对应的中文,通过拼音分词提升搜索体验、加快搜索速度。下面介绍如何在Elasticsearch 5.1.1中配置和实现pinyin+iK分词。二、IK分词器下载与安装关于IK分词器的介绍不再多少,...
阅读(17153) 评论(15)

Elasticsearch 5.1.1 head插件安装指南

Elasticsearch 5.1.1 head插件安装指南一、下载安装包下载Elasticsearch 5.1.1下载地址:https://www.elastic.co/downloads/elasticsearchzip和tar格式是各种系统都通用的,解压之后启动Elasticsearch即可。下载elasticsearch-head下载地址:https://github.com/mobz/el...
阅读(25042) 评论(18)

Elasticsearch 5.X下JAVA API使用指南

Elasticsearch 5.0下Java API使用指南一.2.X到5.XElasticsearch 2.x使用java api把elasticsearch安装包下的lib文件夹下的jar文件全部加入到工程类路径即可,换到5.x就不适用了.创建Clien的代码:Settings settings = Settings.builder().put("cluster.name", "elastics...
阅读(30103) 评论(47)

Elasticsearch分析聚合

Elasticsearch不仅仅适合做全文检索,分析聚合功能也很好用。下面通过实例来学习。一、准备数据{"index":{ "_index": "books", "_type": "IT", "_id": "1" }} {"id":"1","title":"Java编程思想","language":"java","author":"Bruce Eckel","price":70.20,"year":...
阅读(5834) 评论(0)

远程文件拷贝命令scp的用法

scp命令用途scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个: 拷贝本机文件到远程服务器 拷贝远程服务器上的文件到本地 它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。scp命令格式scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l li...
阅读(1172) 评论(0)
204条 共11页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    《从Lucene到Elasticsearch:全文检索实战》
    Lucene、ES、ELK开发交流群:370734940
    Lucene、ES、ELK开发交流
    个人资料
    • 访问:817249次
    • 积分:8423
    • 等级:
    • 排名:第2656名
    • 原创:196篇
    • 转载:2篇
    • 译文:6篇
    • 评论:446条
    StackOverFlow
    http://stackoverflow.com/users/6526424
    统计
    博客专栏
    文章分类
    最新评论