自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 学习目录READMD

大数据框架学习篇一、HadoopHadoop单机版环境搭建Hadoop集群环境搭建基于ZooKeeper搭建Hadoop高可用集群二、HiveLinux环境下Hive的安装三、SparkSpark开发环境搭建四、HBaseHBase集群环境配置五、ZookeeperZookeeper单机环境和集群环境搭建其他一、linux虚拟机安装CentOs6系统的详细步骤Linux下JDK的安装Linux安装maven二、mysqlCentOS6.5安装

2020-06-25 20:03:09 213

原创 数据仓库设计规范文档

数据仓库设计规范文档版本更新内容备注v1.0创建文档2020-08-11一. 数仓建设1.1. 数据模型架构规范分层是为了解决 ETL 任务及工作流的组织、数据的流向、读写权限的控制、不同需求的满足等各类问题。总体来说,数仓划分为操作数据层、数据仓库层和数据集市层三部分数据层次的划分ODS:Operational Data Store,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备区,同时又承担着基础数据的记录以及历史变化。

2020-08-31 19:43:43 4567

原创 UDF函数

UDF函数一、背景学习自定义udf函数、以解码url为例。URL 的编码 是ASCII十六进制格式。数仓接受到前端上报的URL,要对URL字段解码如要将 %E6%88%98%E7%8E%8B%E5%9B%9E%E5%BD%92%E7%9C%8B%E5%88%B0%E8%80%81%E5%A9%86%E5%8F%97%E6%AC%BA解码为战王回归看到老婆受欺hivesql、sparksql中,通过反射调用java.net.URLDecoder方法select reflect('java.ne

2020-07-31 22:44:20 2769

原创 Sqoop基本使用

Sqoop基本使用一、Sqoop 基本命令1. 查看所有命令# sqoop help2. 查看某条命令的具体使用方法# sqoop help 命令名二、Sqoop 与 MySQL1. 查询MySQL所有数据库通常用于 Sqoop 与 MySQL 连通测试:sqoop list-databases \--connect jdbc:mysql://192.168.73.132:3306/ \--username root \--password 1234562. 查询指定数据库中

2020-07-31 22:41:37 249

原创 Sqoop 简介与安装

Sqoop 简介与安装一、Sqoop 简介Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出:导入数据:从 MySQL,Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中;导出数据:从 分布式文件系统中导出数据到关系数据库中。其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移二、安装版本选择:目前 Sqoop 有 Sqoop 1 和 Sqoop 2 两个版本,但是截至到目前,官方并不推荐

2020-07-31 22:40:26 180

原创 Linux下redis的安装及用法

Linux下redis的安装及用法下面介绍在Linux环境下,Redis的安装与部署1、在安装redis之前先安装C++编译环境,查看目前服务器上gcc的版本:gcc -v,如果Linux系统没有安装gcc编译器,会提示“Command not found”;如果提示命令找不到,则表明没有安装;或者更新版本,不然后续make的时候会报错。yum -y install gcc-c++gcc的一些参考文章 Linux上怎样安装gcc2、首先上官网下载Redis 压缩包,地址:https://redi

2020-07-01 19:18:22 227

原创 Linux下Flume的安装

Linux下Flume的安装一、前置条件Flume 需要依赖 JDK 1.8+,JDK 参考:Linux下JDK的安装二 、安装步骤2.1 下载并解压下载所需版本的 Flume,这里我下载的是 Apache 版本的 Flume。下载地址为:http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz# 下载后进行解压tar -zxvf apache-flume-1.9.0-bin.tar.g

2020-07-01 19:14:46 311

原创 基于Zookeeper搭建Kafka高可用集群

基于Zookeeper搭建Kafka高可用集群一、Zookeeper集群搭建java安装参考: Linux下JDK的安装zookeepe安装参考:Zookeeper单机环境和集群环境搭建二、Kafka集群搭建2.1 下载解压Kafka 安装包官方下载地址:http://kafka.apache.org/downloads ,本用例下载的版本为 2.4.1,下载命令:# 下载wget https://www-eu.apache.org/dist/kafka/2.4.1/kafka_2.11-2

2020-07-01 19:10:15 191

原创 HBase集群环境配置

HBase集群环境配置一、集群规划这里搭建一个 3 节点的 HBase 集群,其中三台主机上均为 Regin Server。同时为了保证高可用,除了在 hadoop-nn-01 上部署主 Master 服务外,还在 hadoop-nn-02 上部署备用的 Master 服务。Master 服务由 Zookeeper 集群进行协调管理,如果主 Master 不可用,则备用 Master 会成为新的主 Master。二、前置条件HBase 的运行需要依赖 Hadoop 和 JDK(HBase 2.0+

2020-07-01 19:07:35 471

原创 Spark开发环境搭建

Spark开发环境搭建一、安装Spark1.1 下载官方下载地址:https://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载:选择 2.4.6 -> source code 进行编译1.2 编译解压安装包:tar -zxvf spark-2.4.6.tgz -C /opt/gzgtest/spark/cd spark-2.4.6开始编译: export MAVEN_OPTS="-Xmx2g -XX:

2020-06-25 20:00:23 211

原创 Linux安装maven

Linux安装maven环境:centos6.4,maven 3.6.01.前提条件:下载并安装好JDK 。参考Linux下JDK的安装2. 开始配置maven:1)下载地址:https://archive.apache.org/dist/maven/maven-3/或者:wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.6.0/binaries/apache-maven-3.6.0-bin.tar.gztar -zxvf apach

2020-06-25 19:55:47 290

原创 Linux环境下Hive的安装

Linux环境下Hive的安装一、安装Hive1.1 下载并解压下载所需版本的 Hive,这里我下载版本为 3.1.2。下载地址:http://www.apache.org/dyn/closer.cgi/hive/tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /home/hadoop/ mv apache-hive-3.1.2-bin hive-3.1.21.2 配置环境变量# vim /etc/profile添加环境变量:export HIVE_

2020-06-25 19:50:37 248

原创 CentOS6.5安装MySQL5.7详细教程

CentOS6.5安装MySQL5.7详细教程一、下载进入到mysql官网下载自己对应版本的mysql,下载地址:https://dev.mysql.com/downloads/mysql/5.7.html#downloads需要注意的是,下载的是32还是64位的,可以根据username -a判断我这里下载mysql-5.7.25-linux-glibc2.12-x86_64.tar.gz版本也可以进入linux后用命令下载wget https://cdn.mysql.com//Downlo

2020-06-25 19:46:14 364

原创 基于ZooKeeper搭建Hadoop高可用集群

基于ZooKeeper搭建Hadoop高可用集群一、高可用简介Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解:1.1 高可用整体架构HDFS 高可用架构主要由以下组件所构成:Active NameNode 和 Standby NameNode:两台 NameNode

2020-06-25 19:35:39 423 2

原创 Zookeeper单机环境和集群环境搭建

文章目录一、单机环境搭建1.1 下载1.2 解压1.3 配置环境变量1.4 修改配置1.5 启动1.6 验证二、集群环境搭建2.1 修改配置2.2 标识节点2.3 启动集群2.4 集群验证三、zookeper一些操作3.1 更改zoo.cfg3.2 zkServer.sh常用操作3.3 Zookeeper常用Shell命令1 启动服务和连接服务2 help命令3 查看节点列表4 新增节点5 查看节点6. 查看节点状态7 更新节点1.7 删除节点8 监听器9 zookeeper 四字命令四、zookeper

2020-06-25 19:18:08 551

原创 Hadoop集群环境搭建

Hadoop集群环境搭建一、集群规划这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop-nn-01 上部署 NameNode 和 ResourceManager 服务。二、前置条件Hadoop 的运行依赖 JDK,需要预先安装。其安装步骤单独整理至:Linux 下 JDK 的安装使用 scp 命令进行分发 在另外两台机器上安装jdk:[root@hadoop-nn-01 opt]# scp -r ./jdk

2020-06-25 19:05:15 185

原创 Hadoop单机版环境搭建

Hadoop单机版环境搭建一、前置条件Hadoop 的运行依赖 JDK,需要预先安装,安装步骤见:Linux 下 JDK 的安装二、创建hadoop账号####1、使用root账号登录,通过useradd增加用户:useradd -m hadoop -s /bin/bash####2、给hadoop新用户设置密码:passwd hadoop####3、给hadoop用户增加管理员权限:输入指令visudo找到root ALL=(ALL)ALL这一行,一般在98行附近,然后在这一

2020-06-25 18:59:42 2178

原创 Linux下JDK的安装

Linux下JDK的安装系统环境:centos 6.4JDK 版本:jdk 1.8.0_1811. 下载并解压在官网下载所需版本的 JDK,这里我下载的版本为JDK 1.8 ,下载后进行解压tar -zxvf jdk-8u181-linux-x64.tar.gz -C /opt/2. 设置环境变量vi /etc/profile添加如下配置:export JAVA_HOME=/opt/jdk1.8.0_181 export JRE_HOME=${JAVA_HOME}/jre ex

2020-06-25 18:40:21 297

原创 虚拟机安装CentOs6系统的详细步骤

虚拟机安装CentOs6系统的详细步骤准备工作,电脑上安装VMware Workstation,百度一搜即可。我的版本是12.0.0的版本下载CentOS镜像,我下载的版本是64位的CentOS6.4前两步准备工作做好之后,在VMware上的左上角找到文件点击新建虚拟机,弹出以下界面:下一步 稍后安装操作系统根据自己的系统选择虚拟机命名指定磁盘容量自定义配置:移除打印机、内存2G 网络选择 NAT模式方便配置静态ip开启虚拟机后安装第一步安装第二步 后面就继续点就行,

2020-06-16 19:36:52 764

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除