当前搜索:

MapReduce编程(五) 单表关联

MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。...
阅读(1029) 评论(0)

MapReduce编程(四) 求均值

MapReduce编程统计学生成绩的平均值,StringTokenizer和Split的用法对比...
阅读(1808) 评论(0)

MapReduce编程(三) 排序

MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下...
阅读(4622) 评论(1)

MapReduce编程(二) 文件合并和去重

MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。...
阅读(1658) 评论(0)

MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。...
阅读(6284) 评论(1)

Intellij Idea编译Elasticsearch源码

如果想阅读Elasticsearch源码,定制功能,不可避免的要编译Elasticsearch。本文图文并茂,介绍如何使用Intellij Idea编译Elasticsearch源码包。...
阅读(5070) 评论(1)

TF-IDF词项权重计算

一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要. 词元权重计算公式: tf-idf=tf(t,d)*log(N/df(t)) W(t,d):the weight of the term in document d tf...
阅读(2237) 评论(1)

ELK日志处理之使用Grok解析日志

介绍如何在logstash中使用Grok和正则表达式解析任意格式日志,以及Grok Debugger的使用。...
阅读(5420) 评论(0)

图解Elasticsearch中的_source、_all、store和index属性

Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该开启_all字段?本文通过图解和代码测试进行解析。...
阅读(8524) 评论(10)

ELK日志处理之使用logstash收集log4J日志

介绍logstash处理log4j日志,包括log4j的简介、工程的搭建、log4j配置、logstash配置,实现日志从产生到logstash再到Elasticsearch的整个流程。...
阅读(11775) 评论(2)
    《从Lucene到Elasticsearch:全文检索实战》
    Lucene、ES、ELK开发交流群:370734940
    Lucene、ES、ELK开发交流
    个人资料
    • 访问:817249次
    • 积分:8423
    • 等级:
    • 排名:第2656名
    • 原创:196篇
    • 转载:2篇
    • 译文:6篇
    • 评论:446条
    StackOverFlow
    http://stackoverflow.com/users/6526424
    统计
    博客专栏
    文章分类
    最新评论