1.01^365=31.78 (Lucene、ES、ELK开发交流群: 370734940)

Engineers are versatile minds who create links between science, technology, and society.

排序:
默认
按更新时间
按访问量

VirtualBox安装CentOS 7虚拟机(集群)

介绍如何在Windows下使用VirtualBox安装CentOS 7虚拟机(集群),如何设置宿主机和虚拟机直接的网络通信,以及xshell工具的使用

2017-04-08 18:09:36

阅读数:1814

评论数:2

MapReduce编程(七) 倒排索引构建

使用Lucene 6.0对文本进行中文分词,然后使用MapReduce构建倒排索引,统计文档频率和总的词项频率

2017-04-04 16:31:49

阅读数:2579

评论数:0

MapReduce编程(六) 从HDFS导入数据到Elasticsearch

Elasticsearch for Hadoop安装以及如何从HDFS导入数据到Elasticsearch

2017-04-01 19:26:20

阅读数:7755

评论数:6

MapReduce编程(五) 单表关联

MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。

2017-03-31 17:41:00

阅读数:1464

评论数:0

MapReduce编程(四) 求均值

MapReduce编程统计学生成绩的平均值,StringTokenizer和Split的用法对比

2017-03-31 13:28:34

阅读数:1979

评论数:0

MapReduce编程(三) 排序

MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下

2017-03-31 11:10:34

阅读数:4913

评论数:1

MapReduce编程(二) 文件合并和去重

MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。

2017-03-30 23:59:27

阅读数:2656

评论数:0

MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。

2017-03-30 20:37:22

阅读数:9464

评论数:1

Intellij Idea编译Elasticsearch源码

如果想阅读Elasticsearch源码,定制功能,不可避免的要编译Elasticsearch。本文图文并茂,介绍如何使用Intellij Idea编译Elasticsearch源码包。

2017-03-27 20:06:28

阅读数:6676

评论数:1

TF-IDF词项权重计算

一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要. 词元权重计算公式: tf-idf=tf(t,d)*log(N/df...

2017-03-23 21:46:51

阅读数:2960

评论数:1

ELK日志处理之使用Grok解析日志

介绍如何在logstash中使用Grok和正则表达式解析任意格式日志,以及Grok Debugger的使用。

2017-03-17 13:26:24

阅读数:9796

评论数:0

图解Elasticsearch中的_source、_all、store和index属性

Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该...

2017-03-15 20:29:26

阅读数:13737

评论数:12

ELK日志处理之使用logstash收集log4J日志

介绍logstash处理log4j日志,包括log4j的简介、工程的搭建、log4j配置、logstash配置,实现日志从产生到logstash再到Elasticsearch的整个流程。

2017-03-11 00:29:52

阅读数:17971

评论数:18

Elasticsearch整合Mysql新闻搜索

Elasticsearch整合Mysql,实现数据导入、全文搜索、搜索高亮、结果分页

2017-02-27 17:19:14

阅读数:2933

评论数:20

Elasticsearch Java API(十一)--聚合(aggregations)

Elasticsearch分析聚合介绍了分析聚合的REST命令,这篇博客介绍一下如何使用Java API。一、准备数据测试数据请参考我的上一篇博客:Elasticsearch分析聚合。二、需求查询title中包含关键字”程序”的文档,统计查询按编程语言分组,统计每组的文档数量。三、REST命令行R...

2017-02-21 12:15:29

阅读数:5549

评论数:0

Lucene扩展停用词字典与自定义词库

介绍如何在Lucene 6.0中扩展停用词,如何通过自定义字典把"厉害了我的哥"分成一个词

2017-02-04 18:23:51

阅读数:4559

评论数:2

Lucene 6.0 提取新闻关键词Top-N

一、需求 给出一篇新闻文档,统计出现频率最高的有哪些词语。 二、思路 关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索引的过程,词条化会从文本中去除标点符号、停用词等,最后生成词项。在代码...

2017-01-11 19:47:00

阅读数:4627

评论数:0

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一机器环境 二配置SSH免密码登录 三安装Hadoop 273 1下载Hadoop 2运行Hadoop单机模式 3 Hadoop伪分布式模式 31修改hadoop-envsh 32修改core-sitexml 33修改mapred-sitexmltemplate 34修改hdfs-sitexml ...

2017-01-06 14:37:11

阅读数:7400

评论数:3

从0开始搭建SVN服务器

机器环境:Win7 64位 Eclipse:Neon.1a Release (4.6.1) 在Win7上安装SVN server作为搭建代码服务器,在另外一台机器上提交代码进行测试。一、SVN服务器配置1.1下载与安装到VISUALSVN SERVER官网下载SVN服务器安装包,下载地址:ht...

2017-01-01 17:00:52

阅读数:4955

评论数:11

Elasticsearch 5.1.1搜索高亮及Java API实现

5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。 注:从这篇博客开始,采用简写的代码风格,也就是Sence插件或者kibana的dev tools中采用的风格。(温馨...

2016-12-28 17:39:01

阅读数:15766

评论数:12

提示
确定要删除当前文章?
取消 删除
关闭
关闭