自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 flink与spark架构区别

JobManager,相当于Spark 中的ApplicationMaster中的Driver 作业管理器,是一个JVM进程,接收作业 分发执行图到taskManagerTaskManager,相当于Spark 中的Executor 任务管理器,是一个JVM进程,执行作业,它可能会在独立的线程上执行一个或多个subtask Flink中会有多个TaskManager 每个TaskManager都包含一定数量的插槽slotsSlots,相当于Spark Exe.

2020-12-07 14:44:12 751 3

原创 大数据处理过程中的问题总结

001Couldn't find leader offsets for Set([ssdmt,0], [smt,1], [smsdt,2])Couldn‘t find leader offsets for Set ([ludsdwc_test,0],[luwsdc_test,1]) 异常问题。解决方案:要在kafka集群的hosts要配到spark的Driver的hosts里面去,用zk管kafka的话,是可以获取到Partition信息的,但是解析地址会失败,把hosts配成一..

2020-07-27 11:34:44 1028

翻译 Offset Management For Apache Kafka With Apache Spark Streaming

Spark Streaming 应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势,例如性能好、速度快。然而,用户必须管理Kafka Offsets保证Spark Streaming应用挂掉之后仍然能够正确地读取数据。在这一篇文章,我们将来讨论如何管理offset。目录Offset管理概述 将Offsests存储在外部系统 Spark Stream...

2019-06-14 09:33:32 158

原创 JVM的知识体系-

JVM的知识体系-------见JVM知识体系思维导图JVM的知识体系视频-------详细见炼数成金视频JVM面试参考:https://www.cnblogs.com/wangyayun/p/6557851.htmlhttp://blog.csdn.net/hsk256/article/details/49104955http://blog.csdn.net/sunsfan/arti...

2019-04-10 15:01:51 171

原创 大数据面试问题

GC的原理,算法及不同代使用的算法hashmap、hashtable、concurrentmap原理,内部算法和逻辑数据库的四大原则,缺少某一原则会有什么后果数据库索引是什么数据结构spark streaming如果出错怎么办flume如果数据导入HDFS出错怎么办flapmap是如何实现的,是否可以写一个spark st...

2019-04-09 17:04:22 226

原创 HBASE

hdfs无法进行本地更新,只能进行追加。结构化 MySQL Oracle 半结构化 json xml 非结构 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。搜索引擎 倒排索引主键 (聚簇索引) 二级索引:索引表中的索引先需排序Oracle索引...

2019-04-09 13:51:09 94

原创 虚拟机安装相关问题及解决办法

001虚拟机成功启动后出先本地浏览器无法访问的现象,需要看看防火墙是否关闭。命令为service iptables stop002VMware提示 已将该虚拟机配置为使用 64 位客户机操作系统。但是,无法执行 64 位操作。2017年09月13日 07:41:35渐_行渐远阅读数:2074VMware12提示 已将该虚拟机配置为使用 64 位客户机操...

2019-04-09 11:11:12 363

原创 spark原理

yarn 资源动态调度和资源共享运行多种作业(spark MapReduce)运行在yarn上的两个角色(application master 程序 worker资源,worker数量就是excutor数量)spark一个程序只有一个driver(application master集成driver yarncluster模式 yarnclient模式则是运行在client端) ...

2019-04-09 11:06:14 119

原创 spark相关笔记

推荐版本2.3.x(1/2)Structured Streaming了解一下https://blog.csdn.net/gongpulin/article/details/78198971Apache Tez 了解 https://www.cnblogs.com/rongfengliang/p/6991020.htmlMapReducemap 跟分片split有关...

2019-04-09 11:04:44 84

原创 大数据调优总结-干货

mr调优、最简单的调优方式设置CombinerCombiner在Map端提前进行了一次Reduce处理。可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程拷贝数据量,最终表现为Map Task和Reduce Task执行时间缩短。选择合理的Writable类型为应用程序处理的数据选择合适的Writable类型可大大提升性能。比如处理...

2019-04-09 11:02:58 1368

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除