自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 ES-Hadoop学习之ES和HDFS数据交换

ES作为强大的搜索引擎,HDFS是分布式文件系统。ES可以将自身的Document导入到HDFS中用作备份,ES也可以将存储在HDFS上的结构化文件导入为ES的中的Document。而ES-Hadoop正是这两者之间的一个connector1,将数据从ES导出到HDFS1.1,数据准备,在ES中创建Index和Type,并创建document。在我的例子中,Index是my

2017-09-01 15:44:57 23178

原创 一个使用中文分词的完整Demo

本文将首先将介绍如何在ES中使用中文分词器IK,然后对比一下IK分词器和默认的standard分词器的差别,最后给出一个Java访问ES的demo1,安装中文分词器。下载与ES版本相对应的IK版本。IK下载以及IK和ES版本对应关系见:https://github.com/medcl/elasticsearch-analysis-ik解压下载的zip文件,进入解压文件的根目

2017-04-17 15:13:52 4223

原创 解决MapReduce任务在windows本地执行的NullPointerException问题

为了能在调试MapReduce任务阶段有更好的工作效率,我们可以把URI的Schema设置为file:///,这样MapReduce任务就可以范围windows本地文件夹。当我在尝试这么做的时候出现了如下的空指针异常Exception in thread "main" java.lang.NullPointerExceptionat java.lang.ProcessBuilder

2017-03-01 11:06:25 3955

原创 用Spark Streaming+Kafka实现订单数和GMV的实时更新

前言在双十一这样的节日,很多电商都会在大屏幕上显示实时的订单总量和GMV总额。由于订单数量巨大,不可能每隔一秒就到数据库里进行一次SQL的数据统计,这时候就需要用到流式计算。本文将介绍一个简单的Demo,讲解如何通过Spark Stream消费来自Kafka中订单信息,然后计算订单的数量和金额。总体流程一个完整的流程大概如下图所示。用户下单之

2017-02-04 15:04:11 6219

原创 基于LDAP和Sentry的大数据认证和鉴权解决方案--Part Two:Sentry集成

上一篇文章中,介绍了LDAP和HUE,Impala以及Hive的集成来完成了用户认证的工作,接下来我们聊一下如何使用Sentry来实现对数据的授权管理。Sentry一旦和Hive集成,就会接管Hive的Metadata,也就是说。如果没有集成Sentry,Hive的metadata是存放在Hive自己的metadata数据库中的,但一旦和Sentry整合,这些metadata信息就会保

2016-12-28 18:51:08 8180 5

原创 基于LDAP和Sentry的大数据认证和鉴权解决方案--Part One:LDAP集成

1,背景项目中需要对大数据平台进行数据权限管理,涉及到数据访问的认证和鉴权。大数据平台中有三个数据访问的入口:HUE,impala-shell和beeline(for hive)。每种入口都必须提供用户名和密码,并且,根据用户所在的角色,能访问的数据库和表是各不相同的。在项目中采用了LDAP来作为用户的认证机制,使用Sentry来对用户进行数据权限的管理。整个大

2016-12-28 14:41:01 7668

原创 在clouder manager中使用Flume处理数据链

目标:在Cloudera Manager中创建两个Flume的Agent,Agent1从local file中获取内容,写入到kafka的队列中。Agent2以Agent1的sink作为source,将数据从kafka中读取出来,写入到HDFS中。注意我的Cloudera Manager使用的是CDH5.8的Parcel,在这个版本中,Kafka使用的是0.9.

2016-12-06 15:02:59 5321 1

原创 KUDU安装

Kudu是一个比较新的大数据组建,在国内大规模应用的公司并不多,kudu的安装文档也只找到官网上的一份,自己在按照官网的步骤进行安装的过程中也遇到了一些问题,现记录一下完整的安装过程:Step1,配置Yum的Repository。使用Yum来安装kudu,但由于kudu还不是Yum的常规组建,直接安装会找不到kudu,所以第一步需要将kudu的repo文件下载并放置到合适的

2016-09-14 14:31:43 12031 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除