- 博客(10)
- 收藏
- 关注
原创 flink与spark架构区别
JobManager,相当于Spark 中的ApplicationMaster中的Driver 作业管理器,是一个JVM进程,接收作业 分发执行图到taskManagerTaskManager,相当于Spark 中的Executor 任务管理器,是一个JVM进程,执行作业,它可能会在独立的线程上执行一个或多个subtask Flink中会有多个TaskManager 每个TaskManager都包含一定数量的插槽slotsSlots,相当于Spark Exe.
2020-12-07 14:44:12 751 3
原创 大数据处理过程中的问题总结
001Couldn't find leader offsets for Set([ssdmt,0], [smt,1], [smsdt,2])Couldn‘t find leader offsets for Set ([ludsdwc_test,0],[luwsdc_test,1]) 异常问题。解决方案:要在kafka集群的hosts要配到spark的Driver的hosts里面去,用zk管kafka的话,是可以获取到Partition信息的,但是解析地址会失败,把hosts配成一..
2020-07-27 11:34:44 1033
翻译 Offset Management For Apache Kafka With Apache Spark Streaming
Spark Streaming 应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势,例如性能好、速度快。然而,用户必须管理Kafka Offsets保证Spark Streaming应用挂掉之后仍然能够正确地读取数据。在这一篇文章,我们将来讨论如何管理offset。目录Offset管理概述 将Offsests存储在外部系统 Spark Stream...
2019-06-14 09:33:32 159
原创 JVM的知识体系-
JVM的知识体系-------见JVM知识体系思维导图JVM的知识体系视频-------详细见炼数成金视频JVM面试参考:https://www.cnblogs.com/wangyayun/p/6557851.htmlhttp://blog.csdn.net/hsk256/article/details/49104955http://blog.csdn.net/sunsfan/arti...
2019-04-10 15:01:51 171
原创 大数据面试问题
GC的原理,算法及不同代使用的算法hashmap、hashtable、concurrentmap原理,内部算法和逻辑数据库的四大原则,缺少某一原则会有什么后果数据库索引是什么数据结构spark streaming如果出错怎么办flume如果数据导入HDFS出错怎么办flapmap是如何实现的,是否可以写一个spark st...
2019-04-09 17:04:22 227
原创 HBASE
hdfs无法进行本地更新,只能进行追加。结构化 MySQL Oracle 半结构化 json xml 非结构 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。搜索引擎 倒排索引主键 (聚簇索引) 二级索引:索引表中的索引先需排序Oracle索引...
2019-04-09 13:51:09 94
原创 虚拟机安装相关问题及解决办法
001虚拟机成功启动后出先本地浏览器无法访问的现象,需要看看防火墙是否关闭。命令为service iptables stop002VMware提示 已将该虚拟机配置为使用 64 位客户机操作系统。但是,无法执行 64 位操作。2017年09月13日 07:41:35渐_行渐远阅读数:2074VMware12提示 已将该虚拟机配置为使用 64 位客户机操...
2019-04-09 11:11:12 363
原创 spark原理
yarn 资源动态调度和资源共享运行多种作业(spark MapReduce)运行在yarn上的两个角色(application master 程序 worker资源,worker数量就是excutor数量)spark一个程序只有一个driver(application master集成driver yarncluster模式 yarnclient模式则是运行在client端) ...
2019-04-09 11:06:14 122
原创 spark相关笔记
推荐版本2.3.x(1/2)Structured Streaming了解一下https://blog.csdn.net/gongpulin/article/details/78198971Apache Tez 了解 https://www.cnblogs.com/rongfengliang/p/6991020.htmlMapReducemap 跟分片split有关...
2019-04-09 11:04:44 86
原创 大数据调优总结-干货
mr调优、最简单的调优方式设置CombinerCombiner在Map端提前进行了一次Reduce处理。可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程拷贝数据量,最终表现为Map Task和Reduce Task执行时间缩短。选择合理的Writable类型为应用程序处理的数据选择合适的Writable类型可大大提升性能。比如处理...
2019-04-09 11:02:58 1369
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人