玩玩大数据-CSDN博客

原创 Azkaban官网文档1-概述-Overvie

Azkaban是在LinkedIn上实现的，用来解决Hadoop作业依赖的问题。我们的工作需要按顺序运行，从ETL工作到数据分析产品。Azkaban最初是一个单一的服务器解决方案，随着多年来Hadoop用户数量的增加，它已经发展成为一个更健壮的解决方案。Azkaban由三个关键部分组成:关系型数据库(MySQL) AzkabanWebServer AzkabanExecutorSe...

2019-12-04 22:17:35 906

原创 mysql-5.7.24安装记录

shell> groupadd mysqlshell> useradd -r -g mysql -s /bin/false mysqlshell> cd /usr/localshell> tar zxvf /path/to/mysql-VERSION-OS.tar.gzshell> ln -s full-path-to-mysql-VERSION-OS my...

2019-09-30 13:33:51 121

原创 Hadoop权威指南笔记-第5章-hadoop的IO操作

目录5.1 数据完整性5.1.1 hdfs数据完整性5.1.2 LocalFileSystem5.1.3 CheckSumFileSystem5.2 压缩5.2.1 Codec5.2.2 压缩和输入分片5.2.3 在MapReduce中使用压缩5.3 序列化5.3.1 Writable接口5.3.2Writable类5.3.3 实现定制的wr...

2019-09-11 08:50:12 420

原创 Hadoop权威指南笔记-第4章-关于YARN

yarn最初是hadoop2.x用于改善mapReduce的，但是可以支持其他分布式应用。yarn提供api来请求和使用集群的资源，但是用户不直接使用这些api，而是使用下图中 mr spark tez等程序会架构在yarn之上。4.1 剖析 yarn应用的运行机制2个常驻进程： resourceManager: 总经理，管理整个集群的资源 nodeManager: ...

2019-09-03 12:55:17 252

原创 hadoop问题

这里说了：前面配置了 prod：dev= 40：60 效果和 2：3是一样的。但是那个小鸟后面那里来了一句：它们仍有值为1的权重。疑问：这个值为1的权重，是指 40:60:1 还是 2：3：1 ？？？同样是1后者可是比前者的比例高多了。...

2019-09-01 17:18:35 91

原创 Hadoop权威指南笔记-第3章-hdfs

3.1 hdfs的设计超大文件：几百M 到几百T ，甚至是T的数据流式数据访问：一次写入，多次读取，每次读取都是全量的数据商用硬件：允许机器硬件故障低时间延迟：不适合，可以考虑HBase大量小文件：不好，由于元数据保存在内存中，每个文件/目录/数据块在内存中大约占150字节。如果有一百W个小文件，每个文件一个数据块，那么就要 100,0000*2*150 B...

2019-08-30 16:48:34 218

原创 Hadoop权威指南笔记-第2章-关于MapReduce

2.1 气象数据集没啥可读的，就是说有一组数据，然后呢，要从这些数据里找到每一年的最高气温2.2 使用unix工具来分析数据也没啥可看的，就是说可以用awk工具来处理这个数据，要运行42分钟2.3使用hadoop来分析数据2.3.1 map和reduce 敲黑板啦，这个重点！！看上面这个图，map阶段：入参就是一行一行的原始数据，然后经过map之后，会输出一个...

2019-08-28 12:46:27 173

原创 Hadoop权威指南笔记-第1章-初识hadoop

1.1 数据数据数据越来越多1.2 数据的存储和分析硬盘存储容量不断提升，也变得便宜。但是访问速度并没有得到提升。 1990年一块硬盘可以存储1370m，传输速度是4.4m/s。五分钟可以遍历完 2010年一块硬盘 1T，速度是100m/s，需要 1024*1024/100 约等于10240秒=3个小时左右于是我们考虑对多个硬盘并行读写，以加快速度。但是遇到...

2019-08-27 17:08:00 383

原创 HDFS读写理解

几个概念block一般设为128m，hdfs是按块存储的packetpacket是第二大的单位，它是client端向datanode,或者 datanode之间传输数据的基本单位，默认是 64kchunkchunk是最小的单位，它是client向DataNode，或DataNode的PipLine之间进行数据校验的基本单位，默认512Byte，因为用作校验，故每个chunk...

2019-07-23 17:57:58 264

测试数据库连接bin/sqoop list-databases --connect jdbc:mysql://1.0.0.0:3306/app --username root --password rootsqoop create-hive-table --connect jdbc:mysql://1.0.0.0:3306/app --table uv_info --username roo...

2019-07-23 11:03:33 140

原创 HDFS四大机制

目录1 心跳机制2 安全模式3 机架策略4 负载均衡负载均衡算法：一共有七步阈值管理负载均衡操作1 心跳机制hdfs启动之前，要做集群的时间同步datanode每三秒向namenode发送心跳包，可配置，在hdfs-default.xml中配置，heartbeat.intervalnamenode如果有10次没有收到心跳包，就发起检查，一次检查5分钟...

2019-07-23 09:09:32 256

原创谈谈CAP，BASE, ACID

CAPC consistency 强一致性A Availability 可用性P partition tolerance 分区容忍性强一致性：指有多个副本的情况下，多线程的情况下，对数据的更新操作体现出来的效果与只有一份是一样的。可用性：无论数据规模有多大，限定时间内都必须完成读/写操作。分区容忍性：分区内的机器无法进行网络通信，系统仍然能够正常工作。三选二这三种要...

2019-07-20 15:06:43 335

原创 AZKABAN分享

目录是什么怎么安装怎么用1 启动2 网站3 上传zip及效果演示4 在我们系统中的应用 EMR怎么实现的(源码)主要模块执行流程部分源码分析优缺点是什么工作流引擎，调度平台，类似oozieLinkedin开源官网https://azkaban.github.io/怎么安装1 下载并且编译主项目git cloneht...

2019-07-18 14:24:08 150

原创轻松玩转Flink-01-十分钟在本地跑一把flink

废话不多说，我假设大家本地电脑安装好了 java环境，idea环境，不懂自己百度，简单得很。要跑这个flink，分为以下几步哈目录1 flink下载及启动2 作业代码的编写3 数据源4 run总结一下下载地址，官网，https://flink.apache.org/downloads.html下载完了，解压再解压。先是把 .tgz 解压为 .tar，再...

2019-07-17 11:56:13 879

linqichen的博客