大数据
聚焦于hadoop和spark生态的学习和深入研究。
零零天
这个作者很懒,什么都没留下…
展开
-
21.大数据学习之旅——flume进阶
flume的Sourcesource学习网址:http://flume.apache.org/FlumeUserGuide.html一、Avro 类型的Source监听Avro 端口来接收外部avro客户端的事件流。和netcat不同的是,avro-source接收到的是经过avro序列化后的数据,然后反序列化数据继续传输。所以,如果是avro-source的话,源数据必须是经过avro...原创 2019-01-12 14:32:08 · 452 阅读 · 0 评论 -
20.大数据学习之旅——flume安装和配置
实现步骤:安装jdk,1.6版本以上上传flume的安装包解压安装在conf目录下,创建一个配置文件,比如:template.conf(名字可以不固定,后缀也可以不固定)配置agent组件相关配置:#配置Agent a1 的组件a1.sources=r1a1.channels=c1 (可以配置多个,以空格隔开,名字自己定)a1.sinks=s1 (可以配置多个,以空格隔开,...原创 2019-01-12 14:11:03 · 156 阅读 · 0 评论 -
19.大数据学习之旅——flume介绍
flume介绍概述Flume最早是Cloudera提供的日志收集系统,后贡献给Apache。所以目前是Apache下的项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。Flume是一个高可用的,高可靠的鲁棒性(robust 健壮性),分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据(source);同时,Flume提供对数...原创 2019-01-12 14:08:44 · 285 阅读 · 0 评论 -
18.大数据学习之旅——Kafka(Kafka配置)
Kafka介绍概述官方网址:http://kafka.apache.org/以下摘自官网的介绍:Apache Kafka® is a distributed streaming platform . What exactly does that mean?Kafka是由LinkedIn开发的一个分布式的消息系统,最初是用作LinkedIn的活动流(ActivityStream...原创 2019-01-12 14:03:26 · 520 阅读 · 0 评论 -
17.大数据学习之旅——Strom集群中各角色说明&JStorm介绍&Storm的应用场景&Trident框架& Storm可靠性保证&Storm的容错机制
Strom集群中各角色说明概述每一个工作节点上运行的Supervisor监听分配给它那台机器的工作,根据需要启动/关闭工作进程,每一个工作进程执行一个Topology的一个子集;一个运行的Topology由运行在很多机器上的很多工作进程Worker组成。那么Storm的核心就是主节点(Nimbus)、工作节点(Supervisor)、协调器(ZooKeeper)、工作进程(Worker)、任...原创 2019-01-12 13:51:54 · 867 阅读 · 0 评论 -
16.大数据学习之旅——Storm集群配置&Strom集群中各角色说明&Storm并发机制*
实现步骤:安装和配置jdk安装和配置zookeeper上传和解压storm配置storm安装目录conf目录下的storm.yaml文件storm.yaml配置示例:注意配置项开头需要有空格,:后面需要跟空格,否则启动会报错5.在storm安装目录下创建tmp目录Storm配置说明以下为必须修改的项:1)storm.zookeeper.services:配置zookeep...原创 2019-01-12 13:36:28 · 472 阅读 · 0 评论 -
15.大数据学习之旅——Storm
Storm介绍介绍官方网址:http://storm.apache.org/官方对于Storm的介绍:Apache Storm is a free and open source distributed realtime computation system.Storm makes it easy to reliably process unbounded streams of ...原创 2019-01-12 13:26:18 · 764 阅读 · 0 评论 -
14.大数据学习之旅——HBASE表设计&HBase优化
HBASE表设计Rowkey设计Rowkey是不可分割的字节数,按字典排序由低到高存储在表中。在设计HBase表时,Rowkey设计是最重要的事情,应该基于预期的访问模式来为Rowkey建模。Rowkey决定了访问HBase表时可以得到的性能,原因有两个:1)Region基于Rowkey为一个区间的行提供服务,并且负责区间的每一行;2)HFile在硬盘上存储有序的行。这两个因素是相...原创 2019-01-12 13:16:55 · 425 阅读 · 0 评论 -
13.大数据学习之旅——HBase第三天
LSM-TREE概述众所周知传统磁盘I/O是比较耗性能的,优化系统性能往往需要和磁盘I/O打交道,而磁盘I/O产生的时延主要由下面3个因素决定:1)寻道时间(将磁盘臂移动到适当的柱面上所需要的时间,寻道时移动到相邻柱面移动所需时间1ms,而随机移动所需时间位5~10ms)2)旋转时间(等待适当的扇区旋转到磁头下所需要的时间)3)实际数据传输时间(低端硬盘的传输速率为5MB/ms,而...原创 2019-01-12 13:08:47 · 235 阅读 · 0 评论 -
12.大数据学习之旅——HBase第二天
HBASE完全分布式安装实现步骤准备三台虚拟机,01作为主节点,02、03作为从节点。(把每台虚拟机防火墙都关掉,配置免密码登录,配置每台的主机名和hosts文件。)01节点上安装和配置:Hadoop+Hbase+JDK+Zookeeper02、03节点上安装和配置:Hbase+JDK+Zookeeper修改conf/hbase-env.sh配置示例:#修改JAVA_HOME...原创 2019-01-12 13:02:53 · 294 阅读 · 0 评论 -
11.大数据学习之旅——HBase
一、HBASE概述官方网址:http://hbase.apache.org/HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统"。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable...原创 2019-01-10 14:35:08 · 471 阅读 · 0 评论 -
10.大数据学习之旅——hive2
Hive解决数据倾斜问题概述什么是数据倾斜以及数据倾斜是怎么产生的?简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子,它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若进行 word count 的文本有100G,其中 80...原创 2019-01-10 13:53:32 · 269 阅读 · 0 评论 -
9.大数据学习之旅——hive
Hive介绍Hadoop开发存在的问题只能用java语言开发,如果是c语言或其他语言的程序员用Hadoop,存在语言门槛。需要对Hadoop底层原理,api比较了解才能做开发。Hive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,可以将 sql语句转换为 MapReduce任务进行运行。其优点是学习成本低,可以...原创 2019-01-10 13:37:19 · 325 阅读 · 0 评论 -
8.大数据学习之旅——hadoop-Hadoop完全分布式配置
Hadoop完全分布式配置关闭防火墙修改主机名配置hosts文件。将需要搭建集群的主机全部配置到hosts文件中192.168.32.138 hadoop01192.168.32.139 hadoop02192.168.32.140 hadoop03配置免密登录安装jdk安装zk配置Hadoop编辑hadoop-env.sh,并且重新生效编辑core-site...原创 2019-01-10 13:01:07 · 222 阅读 · 0 评论 -
7.大数据学习之旅——hadoop-MapReduce
序列化/反序列化机制当自定义一个类之后,如果想要产生的对象在hadoop中进行传输,那么需要这个类实现Writable的接口进行序列化/反序列化案例:统计每一个人产生的总流量import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io...原创 2019-01-10 12:42:41 · 174 阅读 · 0 评论 -
5.大数据学习之旅——hadoop-HDFS
NameNode查看edits文件:hdfs oev -i edits_0000000000000000022-0000000000000000023 -o edits.xml查看fsimage文件:hdfs oiv -i fsimage_0000000000000000024 -o fsimage.xml -p XMLfsimage_0000000000000000023.md5 — ...原创 2019-01-10 12:04:12 · 227 阅读 · 0 评论 -
5.大数据学习之旅——hadoop-简介及伪分布式安装
Hadoop简介是Apache的顶级项目,是一个可靠的、可扩展的、支持分布式计算的开源项目。起源创始人:Doug Cutting 和Mike2004 Doug和Mike创建了Nutch - 利用通用爬虫爬取了互联网上的所有数据,获取了10亿个网页数据 - 10亿个网页数据是非结构化数据,就意味着这些数据是无法存储到数据库中Doug发现了Google在2003年发表的一篇论文:《G...原创 2019-01-10 11:44:28 · 350 阅读 · 0 评论 -
4.大数据学习之旅——Avro
一、概述Avro是一种远程过程调用和数据序列化框架,是在Apache的Hadoop项目之内开发的。它使用JSON来定义数据类型和通讯协议,使用压缩二进制格式来序列化数据。它主要用于Hadoop,它可以为持久化数据提供一种序列化格式,并为Hadoop节点间及从客户端程序到Hadoop服务的通讯提供一种电报格式。二、序列化和反序列化概述数据序列化就是将对象或者数据结构转化成特定的格式,...原创 2019-01-10 11:18:08 · 554 阅读 · 0 评论 -
3.大数据学习之旅——Zookeeper
ZookeeperZookeeper是开源的分布式的协调服务框架,是Apache Hadoop的子件,适用于绝大部分分布式集群的管理分布式引发问题:死锁:至少有一个线程占用了资源,但是不占用CPU活锁:所有线程都没有把持资源,但是线程却是在不断地调度占用CPU需要引入一个管理节点为了防止入口的单点问题,需要引入管理节点的集群需要在管理阶段中选举出一个主节点需要确定一套选举算法...原创 2019-01-10 10:57:59 · 346 阅读 · 3 评论 -
2.大数据学习之旅——红黑树
红黑树自平衡二叉查找树 — 时间复杂度O(logn)特征:每一个节点非红即黑根节点一定是黑色所有的叶子节点一定是黑色的nil节点红节点的子节点一定是黑节点任意一条路径中的黑色节点个数一致插入的节点一定是红色修复:当前节点为红,并且父节点且叔父节点为红,那么将父节点以及叔父节点涂黑,然后将祖父节点涂红当前节点为红,并且父节点为红且叔父节点为黑,当前节点为右子叶,以当前...原创 2019-01-10 10:21:25 · 240 阅读 · 0 评论 -
1.大数据学习之旅——NIO
Concurrent包jdk1.5所提供的一个针对高并发进行编程的包。阻塞式队列 - BlockingQueue遵循先进先出(FIFO)的原则。阻塞式队列本身使用的时候是需要指定界限。ArrayBlockingQueue - 阻塞式顺序队列 - 底层是基于数组来进行存储,使用的时候需要指定一个容量, 容量在指定之后不可改变。— 生产-消费模型LinkedBlockingQueue - ...原创 2019-01-10 10:09:18 · 198 阅读 · 0 评论