qq_38369653-CSDN博客

原创学习目录READMD

大数据框架学习篇一、HadoopHadoop单机版环境搭建Hadoop集群环境搭建基于ZooKeeper搭建Hadoop高可用集群二、HiveLinux环境下Hive的安装三、SparkSpark开发环境搭建四、HBaseHBase集群环境配置五、ZookeeperZookeeper单机环境和集群环境搭建其他一、linux虚拟机安装CentOs6系统的详细步骤Linux下JDK的安装Linux安装maven二、mysqlCentOS6.5安装

2020-06-25 20:03:09 213

原创数据仓库设计规范文档

数据仓库设计规范文档版本更新内容备注v1.0创建文档2020-08-11一. 数仓建设1.1. 数据模型架构规范分层是为了解决 ETL 任务及工作流的组织、数据的流向、读写权限的控制、不同需求的满足等各类问题。总体来说，数仓划分为操作数据层、数据仓库层和数据集市层三部分数据层次的划分ODS：Operational Data Store，操作数据层，在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。

2020-08-31 19:43:43 4567

原创 UDF函数

UDF函数一、背景学习自定义udf函数、以解码url为例。URL 的编码是ASCII十六进制格式。数仓接受到前端上报的URL，要对URL字段解码如要将 %E6%88%98%E7%8E%8B%E5%9B%9E%E5%BD%92%E7%9C%8B%E5%88%B0%E8%80%81%E5%A9%86%E5%8F%97%E6%AC%BA解码为战王回归看到老婆受欺hivesql、sparksql中，通过反射调用java.net.URLDecoder方法select reflect('java.ne

2020-07-31 22:44:20 2769

原创 Sqoop基本使用

Sqoop基本使用一、Sqoop 基本命令1. 查看所有命令# sqoop help2. 查看某条命令的具体使用方法# sqoop help 命令名二、Sqoop 与 MySQL1. 查询MySQL所有数据库通常用于 Sqoop 与 MySQL 连通测试：sqoop list-databases \--connect jdbc:mysql://192.168.73.132:3306/ \--username root \--password 1234562. 查询指定数据库中

2020-07-31 22:41:37 249

原创 Sqoop 简介与安装

Sqoop 简介与安装一、Sqoop 简介Sqoop 是一个常用的数据迁移工具，主要用于在不同存储系统之间实现数据的导入与导出：导入数据：从 MySQL，Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中；导出数据：从分布式文件系统中导出数据到关系数据库中。其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移二、安装版本选择：目前 Sqoop 有 Sqoop 1 和 Sqoop 2 两个版本，但是截至到目前，官方并不推荐

2020-07-31 22:40:26 180

原创 Linux下redis的安装及用法

Linux下redis的安装及用法下面介绍在Linux环境下，Redis的安装与部署1、在安装redis之前先安装C++编译环境，查看目前服务器上gcc的版本：gcc -v，如果Linux系统没有安装gcc编译器，会提示“Command not found”；如果提示命令找不到，则表明没有安装；或者更新版本，不然后续make的时候会报错。yum -y install gcc-c++gcc的一些参考文章 Linux上怎样安装gcc2、首先上官网下载Redis 压缩包，地址：https://redi

2020-07-01 19:18:22 227

原创 Linux下Flume的安装

Linux下Flume的安装一、前置条件Flume 需要依赖 JDK 1.8+，JDK 参考：Linux下JDK的安装二、安装步骤2.1 下载并解压下载所需版本的 Flume，这里我下载的是 Apache 版本的 Flume。下载地址为：http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz# 下载后进行解压tar -zxvf apache-flume-1.9.0-bin.tar.g

2020-07-01 19:14:46 311

原创基于Zookeeper搭建Kafka高可用集群

基于Zookeeper搭建Kafka高可用集群一、Zookeeper集群搭建java安装参考: Linux下JDK的安装zookeepe安装参考：Zookeeper单机环境和集群环境搭建二、Kafka集群搭建2.1 下载解压Kafka 安装包官方下载地址：http://kafka.apache.org/downloads ，本用例下载的版本为 2.4.1，下载命令：# 下载wget https://www-eu.apache.org/dist/kafka/2.4.1/kafka_2.11-2

2020-07-01 19:10:15 191

原创 HBase集群环境配置

HBase集群环境配置一、集群规划这里搭建一个 3 节点的 HBase 集群，其中三台主机上均为 Regin Server。同时为了保证高可用，除了在 hadoop-nn-01 上部署主 Master 服务外，还在 hadoop-nn-02 上部署备用的 Master 服务。Master 服务由 Zookeeper 集群进行协调管理，如果主 Master 不可用，则备用 Master 会成为新的主 Master。二、前置条件HBase 的运行需要依赖 Hadoop 和 JDK(HBase 2.0+

2020-07-01 19:07:35 471

原创 Spark开发环境搭建

Spark开发环境搭建一、安装Spark1.1 下载官方下载地址：https://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：选择 2.4.6 -> source code 进行编译1.2 编译解压安装包：tar -zxvf spark-2.4.6.tgz -C /opt/gzgtest/spark/cd spark-2.4.6开始编译： export MAVEN_OPTS="-Xmx2g -XX:

2020-06-25 20:00:23 211

原创 Linux安装maven

Linux安装maven环境：centos6.4，maven 3.6.01.前提条件：下载并安装好JDK 。参考Linux下JDK的安装2. 开始配置maven:1）下载地址：https://archive.apache.org/dist/maven/maven-3/或者：wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.6.0/binaries/apache-maven-3.6.0-bin.tar.gztar -zxvf apach

2020-06-25 19:55:47 290

原创 Linux环境下Hive的安装

Linux环境下Hive的安装一、安装Hive1.1 下载并解压下载所需版本的 Hive，这里我下载版本为 3.1.2。下载地址：http://www.apache.org/dyn/closer.cgi/hive/tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /home/hadoop/ mv apache-hive-3.1.2-bin hive-3.1.21.2 配置环境变量# vim /etc/profile添加环境变量：export HIVE_

2020-06-25 19:50:37 248

原创 CentOS6.5安装MySQL5.7详细教程

CentOS6.5安装MySQL5.7详细教程一、下载进入到mysql官网下载自己对应版本的mysql，下载地址：https://dev.mysql.com/downloads/mysql/5.7.html#downloads需要注意的是，下载的是32还是64位的，可以根据username -a判断我这里下载mysql-5.7.25-linux-glibc2.12-x86_64.tar.gz版本也可以进入linux后用命令下载wget https://cdn.mysql.com//Downlo

2020-06-25 19:46:14 364

原创基于ZooKeeper搭建Hadoop高可用集群

基于ZooKeeper搭建Hadoop高可用集群一、高可用简介Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用，两者的实现基本类似，但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多，所以它的实现也更加复杂，故下面先进行讲解：1.1 高可用整体架构HDFS 高可用架构主要由以下组件所构成：Active NameNode 和 Standby NameNode：两台 NameNode

2020-06-25 19:35:39 423 2

原创 Zookeeper单机环境和集群环境搭建

文章目录一、单机环境搭建1.1 下载1.2 解压1.3 配置环境变量1.4 修改配置1.5 启动1.6 验证二、集群环境搭建2.1 修改配置2.2 标识节点2.3 启动集群2.4 集群验证三、zookeper一些操作3.1 更改zoo.cfg3.2 zkServer.sh常用操作3.3 Zookeeper常用Shell命令1 启动服务和连接服务2 help命令3 查看节点列表4 新增节点5 查看节点6. 查看节点状态7 更新节点1.7 删除节点8 监听器9 zookeeper 四字命令四、zookeper

2020-06-25 19:18:08 551

qq_38369653的博客