大数据架构
撸码小丑
BUG制造商
展开
-
大数据平台时间同步
在搭建大数据平台的时候,若现场无时间服务器,因服务器间的时间不一致会导致大数据平台运行异常。(时间差不得超过4分钟)所以需要做时间同步服务。 本人搭建的集群有三台机器(Hadoop1:主节点;Hadoop2:备份节点;Hadoop3:计算节点)。 下面我用备份节点作为时间服务器为例,进行大数据平台的时间同步。废话不多说,正文开始将ntpserver.sh文件拷贝到hadoop2上,将ntpcli原创 2017-11-30 11:44:45 · 2842 阅读 · 0 评论 -
Hbase的安装
1.上传将hbase安装包hbase-0.99.2-bin.tar.gz上传到/usr/local/apps/platform/下2.解压并重命名tar –zxvf hbase-0.99.2-bin.tar.gzmv hbase-0.99.2 hbase3.修改环境变量1、执行下面命令: vi/etc/profile 添加内容:export HBAS...原创 2018-02-27 23:04:39 · 250 阅读 · 0 评论 -
Azkaban安装和使用实例
Azkaban安装1、准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gzMySQL 目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 root用户,密码 root....原创 2018-02-15 12:42:15 · 18942 阅读 · 5 评论 -
Flume安装与简单实例
Flume安装1、Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME为你本机的java安装目录。 2、根据数据采集的需求配置采集方案,描述在配置...原创 2018-02-21 21:37:02 · 245 阅读 · 0 评论 -
大数据组件运维常用命令
Flume:启动agentflume-ng agent -n a1 -c conf -f conf/myconf/exec.conf -Dflume.root.logger=INFO,console停止agent就直接杀死进程就ok了kafka:启动命令(kafka需要依次在各个节点进行启动,可以自己写脚本批量启动)bin/kafka-server-start....原创 2018-03-31 18:02:18 · 1398 阅读 · 0 评论 -
Kafka安装
Kafka集群部署1、下载安装包 http://kafka.apache.org/downloads.html 2、解压安装包并建立软链接tar -zxvf /export/software/kafka_2.11-0.8.2.2.tgz -C /export/servers/ln -s kafka_2.11-0.8.2.2 kafka3、修改配置文件vi /expor...原创 2018-04-14 10:03:50 · 4647 阅读 · 0 评论 -
记录一次hive大表脱敏和改造成parquet存储动态分区的操作
#!/bin/bashtablename=frontlogstartDate=2018-01-01#endDate=`date -d "0 day ago" +%Y-%m-%d`DATE=`date +%Y-%m-%d`endDate=2018-08-30#给新表增加分区while [[ $startDate<=$endDate ]]do echo "star...原创 2018-09-10 15:18:58 · 908 阅读 · 0 评论 -
Spark/HDFS上传文件错误:Permission denied
问题描述今天用spark将RDD结果输出到HDFS时,因为CDH集群重新配置的原因,权限没有设置好。导致写文件出bug。错误情况org.apache.hadoop.security.AccessControlException: Permission denied: user=xiet, access=WRITE, inode="/":hdfs:supergroup:drwxr-...原创 2018-09-13 09:51:38 · 2232 阅读 · 0 评论