大数据
东纪元
这个作者很懒,什么都没留下…
展开
-
spark推测机制及参数设置
推测执行机制 推测任务是指对于一个Stage里面拖后腿的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果,同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的,可通过spark.speculation属性来开启推测机制的设置--conf spark.speculation=true--conf spark.speculation.interval=100...转载 2022-03-31 09:53:05 · 582 阅读 · 0 评论 -
flink watermark理解
一、watermark三个特点1、是一条通过自定义函数生成的特殊数据记录,直接插入到数据流中的。2、必须单调递增,因为watermark是用来表示系统语义上的时间,既然是时间,那么就必须递增。对于乱序数据,怎么做到单调递增?很简单,就是一直把已有的watermark与新生成watermark的取最大值返回。3、watermark与数据时间相关,是通过数据流中的数据时间产生的。二、理解watermarkwatermark是一个插入到数据流中的记录(自己写函数生成),生成的wa.原创 2020-06-01 11:08:22 · 659 阅读 · 0 评论 -
ClickHouse Replicated*MergeTree复制表原理、Distributed分布式表原理
Replicated*MergeTree复制表原理复制表通过zookeeper实现,其实就是通过zookeeper进行统一命名服务,并不依赖config.xml的remote_servers配置。不过虽然不依赖,但我们配置的时候尽可能还是要把复制表配置的分片副本信息与config.xml的remote_servers里的分片副本信息一致。因为使用Distributed分布式表时,是不会使用...原创 2020-04-14 15:43:09 · 8768 阅读 · 2 评论 -
ambari安装部署
https://blog.csdn.net/weixin_42348946/article/details/90268875转载 2020-04-10 14:11:18 · 228 阅读 · 0 评论 -
mapreduce CombineTextInputFormat合并小文件
CombineTextInputFormat是用于合并小文件的。通过调用setMaxInputSplitSize方法设置maxSize。有两个主要步骤,(1)虚拟存储,先按照指定规则把指定目录下的文件都切分为小于maxSize的更小文件。当然,原本就小于maxSize的小文件不做切分。只有大于maxSIze的小文件会切分的比maxSize更小。切分后的所有文件都是小于maxSize的,当然...原创 2019-10-14 16:00:52 · 533 阅读 · 0 评论 -
hadoop mapreduce所有组件
转载 2019-06-17 22:10:23 · 200 阅读 · 0 评论 -
十、Hadoop HA集群搭建过程(也可以下载文件)
环境:三台虚拟机,centos7,hadoop2.9.2,zookeeper3.41、zookeeper集群2、hadoop-env配置java_home路径(每个节点都要配置为这个节点所在及其的java home路径)3、配置core-site.xml <!-- hdfs集群使用名称为mycluster的集群,在hdfs-site中配置的nameservices -->...原创 2019-07-06 00:47:14 · 190 阅读 · 0 评论 -
HDFS为什么块大小不能太大也不能太小
一、HDFS 块设置的比较小会增加寻址时间,并且每个块在namenode都会存储一份元数据,增加namenode开销一个大文件会被分为多个block存在hdfs中,而每个block对于磁盘来说就是一个文件。该hdfs的大文件寻址时间是等于磁盘寻找每个block文件的总和。而本地磁盘每寻找一个block文件都要寻址一次,每次寻址时间都差不多。所以block数量越多,寻址次数越多,则把该大...原创 2019-10-10 10:46:49 · 2091 阅读 · 1 评论 -
hadoop mapreduce的shuffle机制(MRAppMaster如何协调mapper和reducer的)
转载 2019-06-17 21:51:58 · 195 阅读 · 0 评论 -
hadoop hdfs namenode的edits log与fsimage是如何保证存储的元数据与内存中一致的?
在启动hadoop hdfs时,用jps命令可以看到有个secondaryNameNode节点,这个就是用于把namenode的edits log与fsimage合并的。。这两个合并后就是最新的元数据了一、合并流程1、namenode检测到edits log达到某个阈值后,此时会告知secondaryNameNode要进行合并操作了;2、secondaryNameNode收到namen...原创 2019-04-30 18:05:51 · 710 阅读 · 0 评论 -
Hadoop hdfs namenode管理元数据的原理、机制
一、namenode存储元数据的有三部分:1、内存中,会存储所有元数据,但断电会丢失;2、硬盘中,也会存储所有元数据,但由edits log+fsimage才是所有元数据;(1) edits log日志文件中,存最新储增删改等操作,每当有这些操作,都会先存到日志文件中,但log有容量限制,并且容量不大(几十兆),每次快满时会把数据计算后刷入fsimage(在secondaryNameN...原创 2019-04-30 18:10:21 · 956 阅读 · 0 评论 -
hadoop hdfs在阿里云上搭建好后,在自己电脑本机用hdfs客户端远程下载文件出现的各种问题及其解决方案
跟着网络上的视频教程在linux上搭建完伪分布式集群后,在我的开发的机器上使用java api下载文件时出现上面的异常。我学习hadoop是下班后学的,导致弄了好几天才解决这个问题。1、首先,hadoop 的hdfs启动会把namenode和datanode绑定在fs.defaultFS配置的ip上,如果服务器是物理机,然后ip就是外网的ip,那么可以把namenode和datanod...原创 2019-05-19 22:28:19 · 2082 阅读 · 2 评论 -
解决Hadoop 在 windows java客户端运行异常 java.io.FileNotFoundException: HADOOP_HOME and...
直接说解决步骤:(针对hadoop-2.9.0.tar ,其他的应该差不多,以下步骤亲测通过 )1. 将已下载的hadoop-2.9.0.tar 这个 linux 压缩文件解压,放到你想要的位置(任意位置);2. 下载 windows 环境下所需的其他文件(必须) hadoop2.9.0对应的hadoop.dll,winutils.exe 等全网最新 这个...转载 2019-05-21 17:33:13 · 10946 阅读 · 3 评论 -
四、hadoop MapReduce之Job代码编写
1、模板代码,只要替换成自己写的Mapper和Reducer等等就行了 public static void main(String[] args) throws Exception{ int exit = ToolRunner.run(new Configuration(), new WCRunner(), args); System.exit(e...原创 2019-06-07 17:01:01 · 497 阅读 · 0 评论 -
hadoop 在widnows下运行需要比linux配置一些额外的东西
额,就是给我另一篇文章新起个标题。。。省的我自己搜索的时候总是找不到看我另一篇文章:https://blog.csdn.net/qq_36951116/article/details/90411329原创 2019-06-07 17:07:20 · 134 阅读 · 0 评论 -
五、hadoop MapReduce之运行job的流程
不论是使用hadoop jar xx.jar com.example.MyMainClass命令去执行main方法,还是在idea等编译器直接运行main方法,效果其实是一样的。都是为了启动执行指定的类的main方法,然后执行job.waitForCompletion。一、在执行main方法里面的代码时(另一篇文章中job的模板代码)执行job.waitForCompletion方...转载 2019-06-07 17:43:08 · 420 阅读 · 0 评论 -
六、hadoop mapreduce在windows本地运行调试
首先,在windows下安装hadoop,设置环境变量,还要加一个dll。资源在这:https://download.csdn.net/download/qq_34955771/10163981资源下载完按一下步骤配置,1:将文件解压到hadoop的bin目录下2:将hadoop.dll复制到C:\Window\System32下3:添加环境变量HADOOP_HOME,指向ha...原创 2019-06-09 20:41:23 · 1084 阅读 · 0 评论 -
七、hadoop mapreduce使用yarn在集群中运行(该文章还需修改)
需要在mapred-site.xml文件中配置:<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></confi...原创 2019-06-09 22:11:51 · 375 阅读 · 0 评论 -
九、hadoop mapreduce分区
mapreduce的分区是指把map任务执行完后得到的数据根据partitioner的规则分配到不同的reducer上处理,(不同的reduce的输出结果会在不同的文件中)一、什么时候分区?每个Mapper执行完map任务后还会在当前节点对map输出数据进行partitioner和sort操作,做完这些操作之后把结果放到内存的缓冲区中。当存储大小超过缓冲区阈值,会把内存的缓冲区数据放...原创 2019-06-16 19:10:14 · 351 阅读 · 0 评论 -
hadoop 运行mapreduce程序会启动哪些进程,以及这些进程的启动和销毁顺序
1、启动RunJar2、启动MRAppMaster3、启动mapper的yarnChild4、销毁mapper的yarnChild5、启动reduce的yarnChild6、销毁reduce的yarnChild7、销毁RunJar8、销毁MRAppMaster...原创 2019-06-16 22:26:06 · 1933 阅读 · 0 评论 -
hadoop mapreduce之切片(split)
如果切片大小与数据块大小一样,那么数据块有多少个,就会有多少个切片,然后每个切片启动一个map task处理。如果数据块 很小,那么会把很多数据块加起来作为一个切片,然后启动一个map task进行处理。...转载 2019-06-16 22:45:01 · 530 阅读 · 0 评论 -
大数据各个框架图,大致按照这个方向去学框架,至于底层的算法就靠自己自觉了
下面全是copy的---真正的大数据开发培训,一定是包含hadoop生态体系和spark生态圈,能够搭建hadoop系统架构和集群,搭建spark架构,构建spark集群,处理Spark SQL、sparkstreaming问题,传授Java语言、Scala、Python语言脚本、Linux常用命令等语言。全栈式大数据开发,真实商业数源授课,致力于大数据系统集成工程师培养。课程...转载 2019-04-24 23:34:57 · 352 阅读 · 0 评论