大数据
爱吃龙虾的饼
这个作者很懒,什么都没留下…
展开
-
hadoop集群搭建
一.安装虚拟机环境Vmware12中文官方版 链接:https://pan.baidu.com/s/1IGKVfaOtcFMFXNLHUQp41w 提取码:6rep激活秘钥:MA491-6NL5Q-AZAM0-ZH0N2-AAJ5A这个安装就十分的简单了,只需要不断点击下一步,直到安装完成就OK了;二.虚拟机的安装(Centos7)这个步骤我分享一个详细安装地址:https://www.cnblogs.com/tony-hyn/p/9677902.html三.搭建集群(1)配置服务器(转载 2020-06-14 19:51:35 · 231 阅读 · 0 评论 -
flume原理
Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。 但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版...转载 2019-05-29 19:12:59 · 263 阅读 · 0 评论 -
大数据-Kafka原理
一、为什么需要消息系统1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性: ...转载 2019-05-29 11:26:11 · 275 阅读 · 0 评论 -
spark-原理总结
一、总体框架结构图由上图我们可以看到Spark应用程序架构主要由Driver Program和Executor构成,Driver负责运行main()和创建SparkContext,Executor主要负责执行Task任务。二、各大重要组件和概念2.1 重要概念概念 功能 Application 用户定义的Spark应用程序,用户提交后,Spark会为应用分配...转载 2019-05-14 20:40:58 · 336 阅读 · 0 评论 -
spark-常用算子
spark算子介绍Spark的算子的分类1、从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Actio...转载 2019-05-14 17:28:35 · 862 阅读 · 0 评论 -
Spark-wordCount程序
object WordCount{ def main (args: Array[String]){ val conf = new SparkConf().setAppName("WC") val sc = new SparkContext(conf) val rdd1 = sc.textFile(args(0...原创 2019-05-14 20:53:30 · 109 阅读 · 0 评论 -
Hadoop-MapReduce案例-自定义分区
在Hadoop的MapReduce过程中,每个map task处理完数据后,如果存在自定义Combiner类,会先进行一次本地的reduce操作,然后把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:public class HashPartitioner<K, V&...转载 2019-04-12 16:44:40 · 309 阅读 · 0 评论 -
Hadoop-mapreduce案例-map端join
订单数据orders.txt1001 pd001 3001002 pd002 201003 pd003 401004 pd002 50商品数据pdts.txtpd001 applepd002 xiaomipd003 cuizi倾斜问题:在电商平台中,买小米手机和买苹果手机的订单数量很多,买锤子手机的订单...转载 2019-04-12 15:58:11 · 261 阅读 · 0 评论 -
Hadoop-mapreduce案例-两表join
订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3...转载 2019-04-12 15:39:37 · 225 阅读 · 0 评论 -
Hadoop-mapreduce案例-统计手机上行流量,下行流量,总流量
日志格式如下图,需要的字段,第二列:手机号(用户),倒数第三列:上行流量,倒数第二列:下行流行思路:将上行流量,下行流量,总流量封装成一个对象bean,map中context.write(手机号,bean),reduce中对每个用户的流量进行统计。MapReduce中传输自定义数据类型Bean:(1) 要在Hadoop的各个节点之间传输,就必须实现其序列化机制,实现 Writa...转载 2019-04-12 15:23:23 · 2775 阅读 · 0 评论 -
Hadoop-MapReduce案例-求共同好友
原始文件如下:(冒号前是人名,冒号后是好友的名字)A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J要求:求出哪些人两两之间有共...转载 2019-04-12 14:53:27 · 332 阅读 · 0 评论 -
大数据-Zookeeper的工作原理
一、zookeeper为什么要奇数个集群中的zookeeper需要超过半数,整个集群对外才可用。这里所谓的整个集群对外才可用,是指整个集群还能选出一个Leader来,zookeeper默认采用quorums来支持Leader的选举。其实quorums机制有两个作用:1、可以保证集群中选举出leader,且是唯一的一个,不会出现脑裂(split-brain)。2、当客户端更新数据时,当...转载 2019-04-10 20:14:10 · 303 阅读 · 0 评论 -
Hadoop-SecondNameNode的工作机制
SecondNameNode的由来NameNode主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。上面的这张图片展示了NameNode怎么把元数据保存到磁盘上的。这里有两个不同的文件:fsimage:它是在NameNode启动时对整个文件系统的快照edit logs:它是在NameNod...转载 2019-04-10 20:10:01 · 495 阅读 · 0 评论 -
Hadoop-YARN的资源调度
yarn概述YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hadoop2.X 版本...转载 2019-04-10 19:38:36 · 2458 阅读 · 0 评论 -
Hadoop-HDFS读写数据
HDFS中的block、packet、chunkblock :这个大家应该知道,文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不顾不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的一个单位。packet :packet是第二大的单位,它是client端向DataNode,或DataNode的PipLine之间传数据的...转载 2019-04-10 19:04:04 · 166 阅读 · 0 评论 -
Hadoop-MapReduce原理过程
MapReduce的定义Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集mapreduce的优点1、MapReduce 易于编程 。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序,...转载 2019-04-10 16:59:07 · 245 阅读 · 0 评论