自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Azkaban官网文档1-概述-Overvie

Azkaban是在LinkedIn上实现的,用来解决Hadoop作业依赖的问题。我们的工作需要按顺序运行,从ETL工作到数据分析产品。Azkaban最初是一个单一的服务器解决方案,随着多年来Hadoop用户数量的增加,它已经发展成为一个更健壮的解决方案。Azkaban由三个关键部分组成:关系型数据库(MySQL) AzkabanWebServer AzkabanExecutorSe...

2019-12-04 22:17:35 906

原创 mysql-5.7.24安装记录

shell> groupadd mysqlshell> useradd -r -g mysql -s /bin/false mysqlshell> cd /usr/localshell> tar zxvf /path/to/mysql-VERSION-OS.tar.gzshell> ln -s full-path-to-mysql-VERSION-OS my...

2019-09-30 13:33:51 121

原创 Hadoop权威指南笔记-第5章-hadoop的IO操作

目录5.1 数据完整性5.1.1 hdfs数据完整性5.1.2 LocalFileSystem5.1.3 CheckSumFileSystem5.2 压缩5.2.1 Codec5.2.2 压缩和输入分片5.2.3 在MapReduce中使用压缩5.3 序列化5.3.1 Writable接口5.3.2Writable类5.3.3 实现定制的wr...

2019-09-11 08:50:12 420

原创 Hadoop权威指南笔记-第4章-关于YARN

yarn最初是hadoop2.x用于改善mapReduce的,但是可以支持其他分布式应用。yarn提供api来请求和使用集群的资源,但是用户不直接使用这些api,而是使用下图中 mr spark tez等程序会架构在yarn之上。4.1 剖析 yarn应用的运行机制2个常驻进程: resourceManager: 总经理,管理整个集群的资源 nodeManager: ...

2019-09-03 12:55:17 252

原创 hadoop问题

这里说了:前面配置了 prod:dev= 40:60 效果和 2:3是一样的。但是那个小鸟后面那里来了一句: 它们仍有值为1的权重。疑问:这个值为1的权重,是指 40:60:1 还是 2:3:1 ??? 同样是1后者可是比前者的比例高多了。...

2019-09-01 17:18:35 91

原创 Hadoop权威指南笔记-第3章-hdfs

3.1 hdfs的设计超大文件:几百M 到几百T ,甚至是T的数据流式数据访问: 一次写入,多次读取,每次读取都是全量的数据商用硬件:允许机器硬件故障低时间延迟: 不适合,可以考虑HBase大量小文件:不好,由于元数据保存在内存中,每个文件/目录/数据块 在内存中大约占150字节。 如果有一百W个小文件,每个文件一个数据块,那么就要 100,0000*2*150 B...

2019-08-30 16:48:34 218

原创 Hadoop权威指南笔记-第2章-关于MapReduce

2.1 气象数据集没啥可读的,就是说有一组数据,然后呢,要从这些数据里找到每一年的最高气温2.2 使用unix工具来分析数据也没啥可看的,就是说可以用awk工具来处理这个数据,要运行42分钟2.3使用hadoop来分析数据2.3.1 map和reduce 敲黑板啦,这个重点!!看上面这个图,map阶段:入参就是一行一行的原始数据,然后经过map之后,会输出一个...

2019-08-28 12:46:27 173

原创 Hadoop权威指南笔记-第1章-初识hadoop

1.1 数据数据 数据越来越多1.2 数据的存储和分析 硬盘存储容量不断提升,也变得便宜。但是访问速度并没有得到提升。 1990年一块硬盘可以存储1370m,传输速度是4.4m/s。 五分钟可以遍历完 2010年一块硬盘 1T,速度是100m/s,需要 1024*1024/100 约等于10240秒=3个小时左右于是我们考虑对多个硬盘并行读写,以加快速度。但是遇到...

2019-08-27 17:08:00 383

原创 HDFS读写理解

几个概念block一般设为128m,hdfs是按块存储的packetpacket是第二大的单位,它是client端向datanode,或者 datanode之间传输数据的基本单位,默认是 64kchunkchunk是最小的单位,它是client向DataNode,或DataNode的PipLine之间进行数据校验的基本单位,默认512Byte,因为用作校验,故每个chunk...

2019-07-23 17:57:58 264

原创 sqoop常用命令

测试数据库连接bin/sqoop list-databases --connect jdbc:mysql://1.0.0.0:3306/app --username root --password rootsqoop create-hive-table --connect jdbc:mysql://1.0.0.0:3306/app --table uv_info --username roo...

2019-07-23 11:03:33 140

原创 HDFS四大机制

目录1 心跳机制2 安全模式3 机架策略4 负载均衡负载均衡算法:一共有七步阈值管理​负载均衡操作1 心跳机制hdfs启动之前,要做集群的时间同步datanode每三秒向namenode发送心跳包,可配置,在hdfs-default.xml中配置,heartbeat.intervalnamenode如果有10次没有收到心跳包,就发起检查,一次检查5分钟...

2019-07-23 09:09:32 256

原创 谈谈CAP,BASE, ACID

CAPC consistency 强一致性A Availability 可用性P partition tolerance 分区容忍性强一致性:指有多个副本的情况下,多线程的情况下,对数据的更新操作体现出来的效果与只有一份是一样的。可用性:无论数据规模有多大,限定时间内都必须完成读/写操作。分区容忍性:分区内的机器无法进行网络通信,系统仍然能够正常工作。三选二这三种要...

2019-07-20 15:06:43 335

原创 AZKABAN分享

目录是什么怎么安装怎么用1 启动2 网站3 上传zip及效果演示4 在我们系统中的应用 EMR怎么实现的(源码)主要模块执行流程部分源码分析优缺点是什么工作流引擎,调度平台,类似oozieLinkedin开源官网https://azkaban.github.io/怎么安装1 下载并且编译主项目git cloneht...

2019-07-18 14:24:08 150

原创 轻松玩转Flink-01-十分钟在本地跑一把flink

废话不多说,我假设大家本地电脑安装好了 java环境,idea环境,不懂自己百度,简单得很。要跑这个flink,分为以下几步哈目录1 flink下载及启动2 作业代码的编写3 数据源4 run总结一下下载地址,官网,https://flink.apache.org/downloads.html下载完了,解压再解压。先是把 .tgz 解压为 .tar,再...

2019-07-17 11:56:13 879

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除