自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 cdh

尚硅谷大数据项目之CDH(作者:尚硅谷大数据研发部)版本:V6.0第1章 数仓之Cloudera Manager 1.1 CM简介1.1.1 CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。1.1.2 CM架构1.2 环境准备1.2.1 虚拟机准备克隆三台虚拟机(hadoop101、hadoop102、hadoop103),配置好

2021-01-19 10:12:03 607

原创 Sqoop 1.x系列导入、导出数据配置

Sqoop 1.x系列导入、导出数据配置脚本导入含时间列(增量、全量、更新及变化)import_data(){$sqoop import \--connect jdbc:mysql://hadoop102:3306/gmall \--username root \--password 123456 \--target-dir /origin_data/gmall/db/$1/$do_date \--delete-target-dir \--query "$2 and \$CONDITIO

2021-01-11 23:38:47 123

原创 SparkSql 常用参数配置

SparkSql 常用参数配置:1、常用持久化:RDD层面:​ 持久化cache:内存​ MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类;​ 以yarn集群为例,一般数据可靠性要求高,memory and disk,yarn资源充足memory 的java序列化即可,yarn资源不充足可以采用kryo序列化;DFrame&DataSet持久化:​ cache:默认Memory and Dis

2020-11-25 20:33:04 3263 2

原创 Flink

Flink时间语义​ 引出:如果按照processing time处理,但是由于分布式运行或网络延迟,导致数据采集、传输一定延迟,导致乱序产生(即有些数据本来一批来的,但是后面才采集到)类型:​ Event time:事件创建事件(应该与传入数据的时间戳相关)​ Ingestion (射入)time:数据进入flink的时间​ Processing time:执行操作算子的本地系统时间,与时间相关。(默认是处理时间)设置:​ env.setStreamTimeCharacteristicw

2020-11-12 13:50:56 105

sqoop1.x 导入数据

sqoop1.x 导入数据

2021-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除