自古无情
码龄7年
关注
提问 私信
  • 博客:4,886
    4,886
    总访问量
  • 9
    原创
  • 968,937
    排名
  • 0
    粉丝
  • 0
    铁粉

个人简介:风来疏竹,风过而竹不留声!雁过寒潭,雁去而潭不留影!故君子事来而心始现,事去而心随空!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-11-16
博客简介:

weixin_41075095的博客

查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得3次评论
  • 获得0次收藏
创作历程
  • 2篇
    2020年
  • 8篇
    2019年
成就勋章
TA的专栏
  • 大数据
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flink与spark架构区别

JobManager,相当于Spark 中的ApplicationMaster中的Driver 作业管理器,是一个JVM进程,接收作业 分发执行图到taskManagerTaskManager,相当于Spark 中的Executor 任务管理器,是一个JVM进程,执行作业,它可能会在独立的线程上执行一个或多个subtask Flink中会有多个TaskManager 每个TaskManager都包含一定数量的插槽slotsSlots,相当于Spark Exe.
原创
发布博客 2020.12.07 ·
850 阅读 ·
2 点赞 ·
3 评论 ·
2 收藏

大数据处理过程中的问题总结

001Couldn't find leader offsets for Set([ssdmt,0], [smt,1], [smsdt,2])Couldn‘t find leader offsets for Set ([ludsdwc_test,0],[luwsdc_test,1]) 异常问题。解决方案:要在kafka集群的hosts要配到spark的Driver的hosts里面去,用zk管kafka的话,是可以获取到Partition信息的,但是解析地址会失败,把hosts配成一..
原创
发布博客 2020.07.27 ·
1108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Offset Management For Apache Kafka With Apache Spark Streaming

Spark Streaming 应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势,例如性能好、速度快。然而,用户必须管理Kafka Offsets保证Spark Streaming应用挂掉之后仍然能够正确地读取数据。在这一篇文章,我们将来讨论如何管理offset。目录Offset管理概述 将Offsests存储在外部系统 Spark Stream...
翻译
发布博客 2019.06.14 ·
203 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

JVM的知识体系-

JVM的知识体系-------见JVM知识体系思维导图JVM的知识体系视频-------详细见炼数成金视频JVM面试参考:https://www.cnblogs.com/wangyayun/p/6557851.htmlhttp://blog.csdn.net/hsk256/article/details/49104955http://blog.csdn.net/sunsfan/arti...
原创
发布博客 2019.04.10 ·
216 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据面试问题

GC的原理,算法及不同代使用的算法hashmap、hashtable、concurrentmap原理,内部算法和逻辑数据库的四大原则,缺少某一原则会有什么后果数据库索引是什么数据结构spark streaming如果出错怎么办flume如果数据导入HDFS出错怎么办flapmap是如何实现的,是否可以写一个spark st...
原创
发布博客 2019.04.09 ·
289 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

HBASE

hdfs无法进行本地更新,只能进行追加。结构化 MySQL Oracle 半结构化 json xml 非结构 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。搜索引擎 倒排索引主键 (聚簇索引) 二级索引:索引表中的索引先需排序Oracle索引...
原创
发布博客 2019.04.09 ·
108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

虚拟机安装相关问题及解决办法

001虚拟机成功启动后出先本地浏览器无法访问的现象,需要看看防火墙是否关闭。命令为service iptables stop002VMware提示 已将该虚拟机配置为使用 64 位客户机操作系统。但是,无法执行 64 位操作。2017年09月13日 07:41:35渐_行渐远阅读数:2074VMware12提示 已将该虚拟机配置为使用 64 位客户机操...
原创
发布博客 2019.04.09 ·
408 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark原理

yarn 资源动态调度和资源共享运行多种作业(spark MapReduce)运行在yarn上的两个角色(application master 程序 worker资源,worker数量就是excutor数量)spark一个程序只有一个driver(application master集成driver yarncluster模式 yarnclient模式则是运行在client端) ...
原创
发布博客 2019.04.09 ·
152 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark相关笔记

推荐版本2.3.x(1/2)Structured Streaming了解一下https://blog.csdn.net/gongpulin/article/details/78198971Apache Tez 了解 https://www.cnblogs.com/rongfengliang/p/6991020.htmlMapReducemap 跟分片split有关...
原创
发布博客 2019.04.09 ·
96 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据调优总结-干货

mr调优、最简单的调优方式设置CombinerCombiner在Map端提前进行了一次Reduce处理。可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程拷贝数据量,最终表现为Map Task和Reduce Task执行时间缩短。选择合理的Writable类型为应用程序处理的数据选择合适的Writable类型可大大提升性能。比如处理...
原创
发布博客 2019.04.09 ·
1456 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏