一个渣渣大数据从业者的博客

这世界很搞,鸟事停不了

kafka connector 中的轻量级ETL-transfomation功能介绍

在kafka connector的使用中,可能因为各种原因(业务原因、connector需要key或者schema等)需要用到transfomation,处理消息的内容。下面列举了kafka connector 自带的transfomation的功能,帮助大家了解一下,当然有能力也可以自己开发tr...

2018-11-12 20:36:19

阅读数 100

评论数 0

sqoop源码解析-----从mysql到hive为例

    上班这么久了,大部分时间都是在大数据平台组件的基础上做一些小的开发,既然是在别人的东西上修改,除了百度或者谷歌搜索前人的讲解,自己阅读源码一定是必不可少的。但是源码里代码量那么大,往往一时间多很难找到整个程序的入口,这时候 往往容易让人感觉到烦躁而不想动,下次碰到这样的情况,应该怎么入手呢...

2018-03-31 00:18:35

阅读数 515

评论数 0

kafka自动化脚本部署

一、背景    如果不采用CDH或者ambari等平台来部署kafka的话,一台一台的安装,一台一台的改配置,真的是一个非常让人头疼的事情呢,经领导提示,为什么不写个shell脚本来进行一件部署呢二、java自动部署if [ ! -d /usr/java/jdk1.8.0_121 ];then ...

2018-03-25 21:15:46

阅读数 605

评论数 0

kafka集群安全化之启用kerberos与acl

一、背景在我们部署完kafka之后,虽然我们已经可以“肆意”的用kafka了,但是在一个大公司的实际生产环境中,kafka集群往往十分庞大,每个使用者都应该只关心自己所负责的Topic,并且对其他人所使用的Topic没有权限。这样一来可以将资源隔离开来,二来可以防止误操作。在权限控制之前,我们必须...

2018-03-25 20:41:11

阅读数 2729

评论数 0

大数据平台运维-----Kerberos环境下Hive及Impala监控脚本的开发

一、工程目录二、原理解析    Hive和Impala是两个最常用的大数据查询工具,他们的主要区别是Hive适合对实时性要求不太高的业务,对资源的要求较低;而Impala的由于采用了全新的架构,处理速度非常的快,但同样的也对资源消耗比较大,适合实时性要求高的业务。    在我测试过程中发现,有些时...

2018-03-25 20:27:05

阅读数 446

评论数 1

大数据平台部署-----ambari在线和离线安装

一、在线编译安装1.1.  安装独立maven1.1.1.       下载Mavenwget http://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.5.2/binaries/apache-maven-3.5.2-bin.tar.gz...

2018-03-22 20:50:40

阅读数 917

评论数 0

HDFS、Hive、HBase常用命令整理

对于一个初学者来说,HDFS、Hive、Hbase常用命令比较多,一时间又难以记住,这里做一个小小的整理总结1.  Hadoop命令文件浏览,不能递归显示 hadoop fs –ls /[path] 递归显示文件 hadoop fs –lsr /[path] 统计文件大小(-h 人性化显示,G...

2018-03-18 23:09:20

阅读数 392

评论数 0

Iptables常用操作及CDH 启用防火墙

一、Iptables常用操作1.查看当前所有的iptables配置iptables -L -n  2.添加允许INPUT访问规则,以下时常见服务的端口设置,如果需要拒绝访问,则将ACCEPT改为DROP即可iptables -A INPUT -p tcp --dport 22 -j ACCEPT...

2018-03-18 23:06:29

阅读数 495

评论数 0

在CM中修改HDFS的nameservice

        在大数据平台中,hdfs的nameservice关系到很多方面,如果有配置错误的话,往往排查起来会非常非常的蛋疼,这时候就需要修改nameservice了,在CM中修改nameservice又不同于直接在配置文件里修改,需要进行的步骤有些许繁琐,这里稍微总结一下。1       停...

2018-03-18 22:59:34

阅读数 1139

评论数 0

CDH添加服务-----以sentry为例

1.  背景虽然在集群上部署了kerberos认证,但是kerberos只是对用户层面进行认证,凡是认证通过的用户都有全量的访问权限,这很不安全,需要进一步对用户的权限进行控制,Sentry 的作用就是这个。2.  添加Sentry服务2.1.进入CM首页-->选择集群--&...

2018-03-18 22:51:17

阅读数 993

评论数 1

大数据平台部署------CDH启用TLS加密传输

1.  TLS介绍1.1.   背景部署了Kerberos之后,CM会提示有安全隐患,至少需要一级TLS加密。1.2.  相关知识传输层安全性(TLS)在ClouderaManager服务器和代理之间的通信中提供加密和身份验证。 加密可防止通信侦听,并且身份验证有助于防止恶意服务器或代理在群集中引...

2018-03-18 22:30:20

阅读数 1056

评论数 0

kerberos高可用---主从部署

1.  选择slave的master(node2)和slave(node3)上添加对方为可信用户在已有kerbero环境中,再选择一台主机作为slave安装kerbero服务端yum -y install krb5-server krb5-libs krb5-auth-dialog 2.  在ke...

2018-03-18 22:23:13

阅读数 1292

评论数 0

Kerberos常用命令总结

进入kadmin kadmin.local/kadmin 创建数据库 kdb5_util create -r JENKIN.COM -s  启动kdc服务 service krb5kdc start 启动kadmin服务 service kadmin start  修改当前密码 kpas...

2018-03-18 22:18:47

阅读数 4417

评论数 0

大数据平台部署-------CDH集群中启用kerberos认证

1.  Kerberos部署1.1.安装相关软件server端 yum -y install krb5-server krb5-libs krb5-auth-dialog Agent端 yum install krb5-devel krb5-workstation -y 1.2.server端...

2018-03-18 17:21:19

阅读数 327

评论数 0

大数据平台运维------HDFS balancer的使用

1.  背景Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是...

2018-03-18 17:07:34

阅读数 702

评论数 0

大数据平台运维------CDH平台启用HBASE权限控制

1.  启用HBase安全服务1.1.  主页-->HBase-->配置-->搜索hbase.superuser添加root,hbase,admin用户1.2.  主页-->HBase--&gt...

2018-03-18 17:04:31

阅读数 501

评论数 0

大数据平台运维------CM与CDH的升级

1.  升级说明CM与CDH的升级过程有点类似与安装过程,这里我们也是采用离线安装模式,各软件版本信息为:操作系统:CentOS6.8CDH版本:5.7.1:CDH-5.7.1-1.cdh5.7.1.p0.11-el5.parcel.sha                CDH-5.7.1-1.c...

2018-03-17 23:38:39

阅读数 1105

评论数 0

大数据平台搭建------CM 和CDH安装

一、安装说明      CM是由cloudera公司提供的大数据组件自动部署和监控管理工具,相应的和CDH是cloudera公司在开源的hadoop社区版的基础上做了商业化的封装的大数据平台。       采用离线安装模式,虽然在线安装比较简单,但是速度感人,原因大家都懂,这里我使用的各软件版本信...

2018-03-17 15:11:24

阅读数 7082

评论数 0

大数据平台搭建------CDH单机部署

       从 17年十一月入职起,到中间经历了毕业、春节、转正。在工作岗位上学到了很多很多的东西,非常有幸遇到这么一群人生导师,早就想把工作中趟过的坑,总结的文档,开个博客记录起来,一来可以给其他人参考,二来也是自己的一个复习吧。可是拖延症作祟,这事,一直耽搁,争取以后每周至少总结两篇。加油,...

2018-03-17 13:58:30

阅读数 1957

评论数 4

提示
确定要删除当前文章?
取消 删除
关闭
关闭