- 博客(10)
- 资源 (32)
- 收藏
- 关注
原创 MapReduce编程(五) 单表关联
MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。
2017-03-31 17:41:00 3375
原创 MapReduce编程(三) 排序
MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下
2017-03-31 11:10:34 5530 1
原创 MapReduce编程(二) 文件合并和去重
MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。
2017-03-30 23:59:27 11065
原创 MapReduce编程(一) Intellij Idea配置MapReduce编程环境
介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。
2017-03-30 20:37:22 28508 7
原创 Intellij Idea编译Elasticsearch源码
如果想阅读Elasticsearch源码,定制功能,不可避免的要编译Elasticsearch。本文图文并茂,介绍如何使用Intellij Idea编译Elasticsearch源码包。
2017-03-27 20:06:28 9305 1
原创 TF-IDF词项权重计算
一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要.词元权重计算公式: tf-idf=tf(t,d)*log(N/df(t))W(t,d):the weight of the term in document d tf
2017-03-23 21:46:51 5298 3
原创 ELK日志处理之使用Grok解析日志
介绍如何在logstash中使用Grok和正则表达式解析任意格式日志,以及Grok Debugger的使用。
2017-03-17 13:26:24 25670
原创 图解Elasticsearch中的_source、_all、store和index属性
Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该开启_all字段?本文通过图解和代码测试进行解析。
2017-03-15 20:29:26 49402 17
原创 ELK日志处理之使用logstash收集log4J日志
介绍logstash处理log4j日志,包括log4j的简介、工程的搭建、log4j配置、logstash配置,实现日志从产生到logstash再到Elasticsearch的整个流程。
2017-03-11 00:29:52 32736 19
Elasticsearch 5.1.1 java api maven工程 源码下载
2017-04-18
druid-1.0.16.jar
2016-10-29
集体智慧编程中文版
2015-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人