![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
qichangjian
菜鸟的学习之路(博客仅用于基础整理,方便查看)
展开
-
大数据博客目录整理
Hadoop大数据平台简介-CDH,HDPHadoop-1-生态圈的组件大体介绍Hadoop-2-hadoop的HA搭建hdfsHadoop-HDFS基本概念介绍(设计思路,架构,优缺点)Hadoop-HDFS四大机制和两大核心以及元数据合并Hadoop-HDFS-读写流程详解Hadoop-HDFS的shell操作mapreduceHadoop-Mapreduce的框架组成和运...原创 2019-03-22 17:54:00 · 519 阅读 · 0 评论 -
flink学习报错:java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/datastream/DataStream
报错内容:java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/datastream/DataStream at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(C原创 2020-06-06 22:47:28 · 2261 阅读 · 0 评论 -
Zookeeper的特点以及典型应用场景
Zookeeper的特点最终一致性:client不论连接哪个server,展示给他的都是同一个视图,这是zookeeper最重要特定。可靠性:具有简单、健壮、良好的性能,如果消息M被一台服务器接收,那么它将被 所有的服务器接受。实时性:ZooKeeper 保证客户端将在一个时间间隔范围内获得服务器的更新信息,或者 服务器失效的信息。但由于网络延时等原因,ZooKeeper 不能保...原创 2019-03-05 15:56:34 · 358 阅读 · 0 评论 -
Hadoop-MapReduc Shuffle过程
过程介绍:假如在hdfs中存储一个300M文件,每个block的大小默认为128M,而且默认的切片大小也是128M,因此,每一个MapTask任务会处理一个split,则是有三个MapTask并行处理。每一个MapTask任务处理完成后,会通过收集器,将输出的结果存入一个环形缓冲区中,写入的过程会经过简单的排序,这个环形缓冲区的默认是100M,当环形缓冲区的大小使用超过80%,一个后台线程...原创 2019-02-26 20:34:11 · 280 阅读 · 0 评论 -
Hadoop-MapReduc入门(代码编写流程,运行流程,并行度决定机制)
1. MapReduce 的介绍:MapReduce 是一个分布式运算程序的编程框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。MapReduce大体上分三个部分:MRAppMaster:MapReduce Application Master,分配任务,协调任务的运行MapTask:阶段并发任务,负责 map...原创 2019-02-26 20:21:00 · 404 阅读 · 0 评论 -
Hadoop-HDFS的shell操作
HDFS的shell操作hadoop version //查看版本hadoop -help //输出这个命令参数手册hadoop fs -appendToFile src(Linux中的文件) dest(hdfs目录下的文件) //追加hadoop fs -cat file(hdfs目录下的文件) //查看文件内容Hadoop fs -t...原创 2019-02-26 18:46:15 · 288 阅读 · 0 评论 -
Hadoop-HDFS四大机制和两大核心以及元数据合并
HDFS四大机制:心跳机制,安全机制,机架策略(副本存放策略),负载均衡。HDFS两大核心:文件上传和文件下载1.HDFS四大机制HDFS四大机制:心跳机制,安全机制,机架策略(副本存放策略),负载均衡。(1)心跳机制:介绍: hdfs是主从架构,所有为了实时的得知dataNode是否存活,必须建立心跳机制,在整个hdfs运行过程中,dataNode会定时的向nameNode发送心跳报告...原创 2019-02-26 18:40:37 · 1330 阅读 · 3 评论 -
Hadoop-HDFS基本概念介绍(设计思路,架构,优缺点)
1. HDFS的设计思路?HDFS:Hadoop Distributed File System Hadoop 分布式文件系统,主要用来解决海量数据的存储问题1.大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理2.每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失2.HDFS 架构主节点 Namenode:集群老大,掌管文件系统目录树,处理客...原创 2019-02-26 17:39:22 · 979 阅读 · 2 评论 -
Hadoop-2-hadoop的HA搭建
hadoop集群的三种搭建安装方式hadoop 伪分布式模式安装Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。hadoop 分布式集群安装集群规划:HDFSYARNHadoop02NameNode + DataNode...原创 2019-02-26 17:19:34 · 219 阅读 · 0 评论 -
ZooKeeper文件系统与监听机制
1.zookeeper介绍(1)zookeeper简介:Zookeeper是一个分布式的,开放源代码的分布式应用程序协调服务,是Google的chubby一个开源的实现。它提供了简单原始的功能,分布式应用可以基于它实现更高的服务,比如分布式同步,配置管理,集群管理,命名管理,队列管理。它被设计为易与编程,使用文件系统目录树作为数据模型。服务端跑在 java 上,提供 java 和 C 的客户...原创 2019-03-05 15:38:18 · 2618 阅读 · 0 评论 -
Hadoop-1-生态圈的组件大体介绍
1.大数据概念:指的是传统数据处理应用软件 不足以处理 (存储和计算)它们的 大而复杂的数据集2.大数据特点:容量大,种类多,速度快,价值高容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息新浪微博,3 亿用户,每天上亿条微博朋友圈,8 亿用户,每天亿级别朋友圈种类(Variety):数据类型的多样性,包括文本,图片,视频,音频结构化数据:可以用二维数据库表来抽象...原创 2019-02-26 16:39:29 · 302 阅读 · 0 评论 -
Kafka底层原理架构
1、Kafka 核心组件概述Kafka 是 LinkedIn 用于日志处理的分布式消息队列,同时支持离线和在线日志处理。Kafka 对消息保存时根据 Topic 进行归类:发送消息者就是 Producer,消息的发布描述为 Producer消息接受者就是 Consumer,消息的订阅描述为 Consumer每个 Kafka 实例称为 Broker,将中间的存储阵列称作 Broker(代...原创 2019-03-05 18:02:14 · 9628 阅读 · 2 评论 -
Kafk的优势以及应用场景
1. Kafka 的介绍kafak是一种分布式的,基于发布/订阅的消息系统。以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能。 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内的消息顺序传输。同时支持离线数据处理(hive、...原创 2019-03-05 16:57:06 · 719 阅读 · 2 评论 -
kafka三种消费语义与保证精准消费
1. 消费语义的介绍at last once:至少消费一次(对一条消息有可能多次消费,有可能会造成重复消费数据) 原因:Proudcer产生数据的时候,已经写入在broker中,但是由于broker的网络异常,没有返回ACK,这时Producer,认为数据没有写入成功,此时producer会再次写入,相当于一条数据,被写入了多次。at most once:最多消费一次,对于消息,有可能消...原创 2019-03-05 16:36:53 · 2109 阅读 · 0 评论 -
Zookeeper的原理(zk角色与选主过程与数据同步)
1. 集群的角色描述2.ZooKeeper 工作流程(1)Leader工作流程Leader 主要有三个功能:1、恢复数据2、维持与 Learner 的心跳,接收 Learner 请求并判断 Learner 的请求消息类型Learner 的消息类型主要:PING 消息:Learner 的心跳信息REQUEST 消息:Follower 发送的提议信息,包括读写请求ACK 消息:F...原创 2019-03-05 16:26:31 · 3566 阅读 · 0 评论 -
Hadoop-MapReduc 和 Spark的比较
首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷。但是二者也有不少的差异具体如下:ApacheSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有Had...原创 2019-02-26 20:42:05 · 342 阅读 · 0 评论 -
Hadoop-Mapreduce数据倾斜与优化(小文件合并)
数据倾斜1.产生原因:Mapreduce程序在运行的时候,运行了大部分,但是还有部分reduce还在运行,甚至长时间运行,最终导致整个程序运行时间很长才结束。造成这种现象的主要原因是:reduce程序处理的key的条数比其他key的条数大很多,这也就造成了分配到数据巨大的key的节点长时间运行。本质讲数据倾斜就是数据分布不均。2.出现场景不同的数据字段可能的数据倾斜一般有两种情况:一...原创 2019-02-26 21:17:50 · 511 阅读 · 0 评论 -
Hadoop-Mapreduce参数调优
1. 相关的资源参数mapreduce.map.memory.mb: 一个maptask可以使用的资源上限,默认是1G,如果超过设置的值,会被强制杀死mapreduce.reduce.memory.mb:一个 Reduce Task 可使用的资源上限默认是1G,如果超过设置的值,会被强制杀死mapreduce.map.cpu.vcores:每个maptask最多的CPU core 默认是1个...原创 2019-02-26 21:24:15 · 732 阅读 · 0 评论 -
Flink场景练习-DataStream应用程序
1.场景说明假定用户有某个网站周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Flink的DataStream应用程序实现如下功能:1.实时统计总计网购时间超过2个小时的女性网民信息。2.周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“,”。2.测试文件样式:log1.txt:周六网民停留日志。该日志文件在该样例程序中的data目录下...原创 2019-04-16 17:34:31 · 689 阅读 · 0 评论 -
Flink批处理和流处理两种方式实现WordCount代码示例
使用scala实现批处理和流处理的wordcount示例编写scala版本批处理wordcount1.新建maven项目2.导入pom坐标<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_2.11</art...原创 2019-04-09 16:03:58 · 2597 阅读 · 1 评论 -
以wordcount为例详细描述mr执行过程
总结:MR程序的执行过程主要分为三步:Map阶段、Shuffle阶段、Reduce阶段,如上图Map阶段:分片(Split):map阶段的输入通常是HDFS上文件,在运行Mapper前,FileInputFormat会将输入文件分割成多个split ——1个split至少包含1个HDFS的Block(默认为128M);然后每一个分片运行一个map进行处理。执行(Map):对输入分片中的每...原创 2019-03-07 12:12:47 · 1287 阅读 · 0 评论 -
HBase 和 Hive 的比较
相同点HBase 和 Hive 都是架构在 Hadoop 之上,用 HDFS 做底层的数据存储,用 MapReduce 做数据计算不同点1、Hive 是建立在 Hadoop 之上为了降低 MapReduce 编程复杂度的 ETL 工具。HBase 是为了弥补 Hadoop 对实时操作的缺陷2、Hive 表是纯逻辑表,因为 Hive 的本身并不能做数据存储和计算,而是完全依赖 Hadoop...原创 2019-03-04 16:39:09 · 449 阅读 · 0 评论 -
工作流调度器Azkaban和Oozie的对比
工作流调度器的介绍(1)为什么要使用工作流调度器?一个完整的数据分析系统通常都是由大量任务单元组成:shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行(2)常见工作流调度器在 hadoop 领域,常见的工作流调度器有 Oozie, Azkaban...原创 2019-03-04 15:03:05 · 1734 阅读 · 0 评论 -
Sqoop的介绍(导入导出原理)
1.sqoop的介绍(1)介绍:Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。 导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。 导出数据:从hadoop的文件系统中导出数据到关系型数据库中。(2)工作机制 将导入导出的命令翻译成MapReduce程序来实现,并且MapRedu...原创 2019-03-04 14:45:48 · 6169 阅读 · 0 评论 -
Sqoop的常用命令(导入导出命令)
1. 基础命令列出MySQL中有那些数据库sqoop list-databases \ --connect jdbc:mysql://hadoop01:3306/ \--username hadoop \--password root \列出MySQL中的数据库有哪些表sqoop list-tables \ --connect jdbc:mysql://hadoop01:33...原创 2019-03-04 14:36:52 · 4021 阅读 · 0 评论 -
大数据在智慧交通中的应用
大数据应用与智慧交通原创 2017-08-24 10:15:23 · 7463 阅读 · 1 评论 -
JVM内存结构,垃圾回收算法,垃圾收集器,jvm参数配置以及常用的分析工具
一、jvm的组织结构二、jvm各内存区域的作用三、jvm的垃圾回收机制介绍四、垃圾回收算法:五、垃圾收集器六、jvm参数配置以及常用的分析工具:一、jvm的组织结构(1)jvm 和系统调用之间的关系 相应的名词解释:类加载器:在jvm启动或者类运行时将需要的class加载到jvm内存中执行引擎:负责执行class文件中包含的字节指令内存区:是在jvm运行的时候操作锁分...原创 2019-03-04 12:48:47 · 838 阅读 · 0 评论 -
HBase的rowkey的设计原则
HBase的rowkey的设计原则HBase是三维有序存储的,通过**rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)**这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式:1、通过get方式,指定rowkey获取唯一一条记录 2、通过s...原创 2019-02-26 23:15:36 · 568 阅读 · 0 评论 -
Spark-DataFrame、DataSet、RDD的区别
RDD(弹性分布式数据集)RDD(Resilient Distributed Dataset)叫做分布式数据集,是 Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD 具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD 允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。可以从三个方面...原创 2019-02-26 23:06:14 · 316 阅读 · 0 评论 -
Hadoop-Yarn介绍以及作业提交流程
1)关于YARN的介绍:YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。2)hadoop1.x中YARN的不足:JobTracker是集群的事务的集中处理,存在单点故障JobTracker需要完成得任务太多,既要维护job的状态又要维护job的task的状态,造成资源消...原创 2019-02-26 22:42:27 · 1233 阅读 · 0 评论 -
Hadoop-Mapreduce的框架组成和运行流程
1.MapReduce的框架组成MapReduce 角色:Client:作业提交发起者配置参数Configuration,并打包成jar文件存储在HDFS上,将文件路径提交给JobTracker的master服务,然后由master创建每个task将它们分发到各个TaskTracker服务中去执行。JobTracker:初始化作业,分配作业,与TaskTracker通信,协调整个作...原创 2019-02-26 21:53:51 · 772 阅读 · 0 评论 -
CAP理论
CAP 理论1、一致性(Consistency)(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)2、可用性(Availability)(A):在集群中一部分节点故障后,在一定时间内,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)3、分区容错性(Partition tolerance)(P):以实际效果而言,分区相当于对...原创 2019-03-05 15:11:03 · 172 阅读 · 0 评论 -
Hbase的协处理器(Coprocessor的两种实现observer 和 endpoint,加载卸载方式,二级索引)
1、协处理器—Coprocessor1、 起源HBase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(&lt;0.92) HBase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层中集成了 MapReduce,能够有效用于数据表的分布...原创 2019-03-05 14:33:57 · 1465 阅读 · 0 评论 -
Hadoop-HDFS-读写流程详解
HDFS写数据流程:详细步骤图:详细描述:1.客户端向NN发送文件上传的请求2.NN进行一系列的检查:是否有权限,文件的父目录是否存在,文件是否已经存在同名等等,检查通过,允许上传3.NN告知客户端允许上传4.客户端发送真正的文件上传的请求,请求包含一个重要信息,文件的长度/大小5.NN根据文件的长度计算文件的切块的个数(200M/128M = 2),以及获取文本的配置信息dfs...原创 2019-02-20 19:18:00 · 962 阅读 · 0 评论 -
大数据概念以及特征01
什么是大数据?大数据的特征?原创 2017-08-15 21:22:44 · 6166 阅读 · 0 评论 -
大数据处理场景01
大数据越来越火,但是大数据到底是怎样应用的?在应用那些场景呢?转载 2017-08-16 12:26:19 · 687 阅读 · 0 评论 -
大数据的典型案例
让你了解什么是大数据?大数据的典型案例。原创 2017-08-23 19:50:06 · 9462 阅读 · 0 评论 -
大数据领域的杰出公司(国内外2)
作为一个大数据爱者,怎样能够不知到国内外知名的大数据公司能?在这里,帮助一些想要了解大数据的朋友们整理了以下公司。转载 2017-08-23 20:23:23 · 445 阅读 · 0 评论 -
大数据领域的杰出公司(国内外1)
作为一个大数据爱者,怎样能够不知到国内外知名的大数据公司能?在这里,帮助一些想要了解大数据的朋友们整理了以下公司。原创 2017-08-23 20:06:44 · 1722 阅读 · 0 评论 -
大数据企业架构以及产生的相关热门职位
对于刚开始学习大数据的人来说,清楚的明白大数据的企业架构尤为重要,对于以后的学习有着不可替代的作用,我将分享一下我对大数据架构的一些理解,不足之处,希望谅解。 我们可以清楚的了解到大数据的架构分为六层。原创 2017-08-23 22:21:01 · 396 阅读 · 0 评论