weixin_42754171
码龄6年
关注
提问 私信
  • 博客:4,312
    4,312
    总访问量
  • 4
    原创
  • 1,723,591
    排名
  • 13
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-07-21
博客简介:

weixin_42754171的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得2次评论
  • 获得10次收藏
创作历程
  • 2篇
    2021年
  • 2篇
    2020年
成就勋章
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

cdh

尚硅谷大数据项目之CDH(作者:尚硅谷大数据研发部)版本:V6.0第1章 数仓之Cloudera Manager 1.1 CM简介1.1.1 CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。1.1.2 CM架构1.2 环境准备1.2.1 虚拟机准备克隆三台虚拟机(hadoop101、hadoop102、hadoop103),配置好
原创
发布博客 2021.01.19 ·
635 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop 1.x系列导入、导出数据配置

Sqoop 1.x系列导入、导出数据配置脚本导入含时间列(增量、全量、更新及变化)import_data(){$sqoop import \--connect jdbc:mysql://hadoop102:3306/gmall \--username root \--password 123456 \--target-dir /origin_data/gmall/db/$1/$do_date \--delete-target-dir \--query "$2 and \$CONDITIO
原创
发布博客 2021.01.11 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sqoop1.x 导入数据

发布资源 2021.01.11 ·
md

SparkSql 常用参数配置

SparkSql 常用参数配置:1、常用持久化:RDD层面:​ 持久化cache:内存​ MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类;​ 以yarn集群为例,一般数据可靠性要求高,memory and disk,yarn资源充足memory 的java序列化即可,yarn资源不充足可以采用kryo序列化;DFrame&DataSet持久化:​ cache:默认Memory and Dis
原创
发布博客 2020.11.25 ·
3403 阅读 ·
1 点赞 ·
2 评论 ·
11 收藏

Flink

Flink时间语义​ 引出:如果按照processing time处理,但是由于分布式运行或网络延迟,导致数据采集、传输一定延迟,导致乱序产生(即有些数据本来一批来的,但是后面才采集到)类型:​ Event time:事件创建事件(应该与传入数据的时间戳相关)​ Ingestion (射入)time:数据进入flink的时间​ Processing time:执行操作算子的本地系统时间,与时间相关。(默认是处理时间)设置:​ env.setStreamTimeCharacteristicw
原创
发布博客 2020.11.12 ·
131 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏