举个栗く-CSDN博客

原创 CDH--6.3安装配置

物理机离线安装CDH61.Cloudera CDH简介1.1 原生的Hadoop有哪些不足版本管理混乱部署过程繁琐、升级过程复杂兼容性差安全性低1.2 什么是CDH和Cloudera ManagerCDH (Cloudera’s Distribution Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据

2021-04-09 01:38:58 1021

原创 flink--环境搭建及使用

flink架构环境搭建下载flink安装包，下载地址：https://flink.apache.org/downloads.html上传flink安装包到Linux服务器上解压flink安装包tar -xvf flink-1.9.1-bin-scala_2.11.tgz -C /bigdata/修改conf目录下的flink-conf.yaml配置文件#指定jobmanager的地址jobmanager.rpc.address: linux01#指定taskmanage

2021-04-08 00:37:11 386

原创 Redis--安装配置及基础应用

Redis 数据库nosql(not only sql) 非关系型数据库1 安装redis1.1 获取源码包先去官网（http://redis.io/download ）下载一个源码工程（redis官网版本只支持linux/微软开源事业部维护了一个windows版本）把安装包上传到服务器，解压缩1.2 编译源码redis的源码是c语言开发，编译redis源码需要安装gcc安装gccyum -y install centos-release-sclyum -y install de

2021-04-08 00:28:49 216

原创面经总结(大数据开发相关)

整理收集一些面试遇到的简单问题

2021-04-07 17:56:46 4919

原创 flink-基础

flink中的状态分为两种:分组的 (调用完keyBy) Keyed State:ValueStateMapStateListState未分组的 (没有调用keyBy) Operator State:ListStateBroadcastStateFlink实现数据一致性的原理:开启Checkpointing,将状态保存到StateBackend中job设置重启策略Source支持记录偏移量(可以重放数据)Sink支持覆盖(幂等性)...

2021-03-18 22:00:50 1181

原创 Openresty(Nginx+Lua)--简介和安装

1.openresty（Nginx+Lua）的简介和安装1.1 什么是openrestyOpenResty 是一个基于 Nginx与 Lua 的高性能 Web 平台，其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。OpenResty通过汇聚各种设计精良的 Nginx模块（主要由 OpenResty 团队自主开发），从而将 Nginx有效地变成一个强大的通用 Web 应用平台。这样，Web 开发人员

2021-03-18 17:34:47 1009

原创 Azkaban-安装配置

1 Azkaban安装部署Azkaban是一个任务调度、管理系统，可以帮用户管理、调度各种运算任务！（可以调任何任务，只要你的任务能用脚本启动）Azkaban类似的产品还有很多，比如oozie，airflow1.1 准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器azkaban-executor-server-2.5.0.tar.gzMySQL目前azkaban只支持 mysql作为元数据管理系统,需安装m

2021-01-27 23:07:28 262

原创 sparksql--spark整合hive

1. 安装MySQL并创建一个普通用户，并且授权```sql CREATE USER 'hive'@'%' IDENTIFIED BY '123456'; GRANT ALL PRIVILEGES ON hivedb.* TO 'hive'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIVILEGES;在${SPARK_HOME}/conf/下添加一个hive-site.xml<?xml version="1.0" e

2021-01-15 22:15:15 194

原创 spark-onyarn配置和执行流程

spark-onyarn配置1 配置hadoop需要在/etc/profile中配置HADOOP_CONF_DIR的目录，目的是为了让Spark找到core-site.xml、hdfs-site.xml和yarn-site.xml【让spark知道NameNode、ResourceManager】，不然会报如下错误：Exception in thread “main” java.lang.Exception: When running with master ‘yarn’ either HADOOP_

2021-01-15 20:56:57 599

原创 Spark -安装配置

Spark架构说明standalone模式是Spark自带的分布式集群模式，不依赖其他的资源调度框架安装步骤下载spark安装包，下载地址：https://spark.apache.org/downloads.html(国外网络卡慢,建议使用vpn,链接下载)或者,百度搜索: 清华大学开源软件镜像站,可以快速下载安装包上传spark安装包到Linux服务器上解压Spark安装包tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz -C /opt

2021-01-15 19:15:13 538 2

原创 ClickHouse学习笔记---集群安装配置

ClickHouse笔记整理2020-12-04ClickHouse的单机安装安装curl工具yum install -y curl添加clickhouse的yum镜像curl -shttps://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh| sudo bash检查镜像情况[root@doit04 yum.repos.d]# yum list | grep clickho

2020-12-04 20:42:23 216

原创 Hive的分桶表2020-12-02

hive的分桶表创建分桶表查看表结构desc formatted buck_demo;create table buck_demo(id int, name string)clustered by(id) --根据id分桶into 4 buckets --分四桶row format delimited fields terminated by '\t';分桶表分区表是将数据分文件夹管理 , 减少数据扫描的文件范围直接从对应文件夹中读取数据分桶表对jo

2020-12-02 19:53:13 224

原创 Hive学习笔记 --数据导入导出

数据的导入1 location2 load3 insert4 create5 put6 import导入指定export的数据create table tb_log2 like tb_log ; -- 根据已有的表结构建表export table tb_log to'/user/hive/warehouse/export/tb_log';import table tb_log2 from'/user/hive/warehouse/e...

2020-12-02 17:05:13 209

原创 Hive笔记整理 -- 系统函数

Hive笔记整理 – 系统函数查看系统函数show function; – 展示系统中所有的函数desc function 函数名; – 查看该函数的使用数据表分区查询排序排序在执行的时候默认是一个reducetaskset mapreduce.job.reduces=n; – 为方便查看效果,可以先设置reducetask数量nset mapreduce.job.reduces; – 查看配置数量order by – 全局结果排序distribute by – 指定分

2020-12-02 16:57:53 186

原创 Hive学习笔记--Hive分区

hive笔记整理2020-12-01hive分区:静态分区步骤1) 前提有静态数据2)创建分区表3)将静态数据导入到指定的分区中创建普通表导入本地数据drop table tb_log ; --删除表create table tb_log(log_id string ,url string ,ct string)row format delimited fields terminated by ',' ; --格式化以,分割l...

2020-12-01 21:15:20 260

原创 HIVE学习笔记-beeline的使用

HIVE学习笔记beeline常用数据类型:TINYINT 1byte有符号整数 20SMALLINT 2byte有符号整数 20INT ** 有符号整数 20BIGINT** 8byte有符号整数 20BOOLEAN 布尔类型，true或者false TRUE FALSEFLOAT 单精度浮点数 3.14159DOUBLE ** 双精度浮点数 3....

2020-11-29 20:15:46 2364

原创 zookeeper学习笔记2020-11-29

1 zookeeper简介1.1 zk的应用场景感知节点的状态写数据读数据1.2 zk的特性分布式协调工具分布式锁负载均衡统一域名zookeeper的高可用2 zk的客户端操作

2020-11-29 15:36:59 206

原创 zookeeper傻瓜式安装

1 上传安装包解压tar -zxf zookeeper-3.4.6.tar.gz -C /opt/apps/2 修改配置文件在linux01解压包下创建一个zkData空文件夹 /opt/apps/zookeeper-3.4.6/zkDatamv zoo_sample.cfg zoo.cfgvi zoo.cfg# Set to "0" to disable auto purge feature#autopurge.purgeInterval=1server.1=linux

2020-11-29 14:59:05 221

原创 HIVE学习笔记(傻瓜式安装)

HIVE学习笔记(傻瓜式安装)2020-11-281 mysql数据远程连接权限linux系统中mysql -uroot -p --输入密码登录进mysql中set global validate_password_policy=0; //----↓set global validate_password_length=1; //–>这个两个设置以后密码很简单不会报错set password for root@localhost = password(‘root’); /

2020-11-28 21:14:44 263

qq_39300291的博客