Hadoop
文章平均质量分 67
力不竭!!!战不止!!!
You just run, OK?
展开
-
一篇文章让你了解大数据
大数据时代 进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。 数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。 正如《纽原创 2022-05-27 18:28:00 · 3184 阅读 · 0 评论 -
KAFKA架构重温
当消费者首次订阅时,有两种方式,latest和earliest,当设置为earliest时,如当前分区有已经提交的offset,从当前offset进行消费,若没有则从最后即最新产的生的数据进行消费; Topic是一类数据集的集合,其实就是一种record队列,每一个record中由一个offset(偏移量)记录读取和写入位置,每一个分区都是一个有序的持续的可追加的不可变record队列,并在kafka中以结构化日志文件commit log文件来存储的,且不管消息消费与否,都会有个默认的保留周期。原创 2021-07-23 23:29:01 · 9810 阅读 · 2 评论 -
Yarn高可用架构
Yarn高可用架构重温 解决NameNode单点故障问题 ResoueceManager:负责整个集群的资源统筹和管理(只有一个active状态,另外一个为standby状态,active的挂掉之后,standby切换为active,之后active挂掉的节点重新加入集群会处于standby) NameNode:一个中心服务器,负责管理文件系统的namespace以及客户端对文件的访问。NameNode执行文件系统的namespace操作,比如打开、关闭、重命名目录或文件,同时它还确定原创 2021-07-22 00:20:17 · 3031 阅读 · 0 评论 -
面试官问:如何判断一个服务是正常的(例如kafka)
当面试遇到此类问题的时候可能会停顿一下,因为之前可能和少遇到此类问题,那我们可以从解决问题的角度去回答这个问题: 你觉得这个服务在什么情况下是正常运行的,由此我们可以想到这个服务的进程在运行、服务的端口在运行、服务日志没有报错日志、调用客户端操作生产和消费功能ok,api调用ok。 ...原创 2021-07-20 08:53:43 · 2751 阅读 · 0 评论 -
SPARK调优
Spark常规优化 executor核心数量设置为Task的 1/3 或者 1/2,官方推荐Task数量为Spark设定的CPU cores的2 到 3倍 RDD优化:当多次对一个RDD进性多次计算时,都需要对这个RDD的父RDD重写进行计算时,可以为这个父RDD进性持久化,意思是对多次使用的RDD进性持久化,可以持久化到内存或者磁盘。如果一个RDD b前面的RDD a经过了非常复杂的shuffle过程,此时也将这个RDD进行持久化。当内存不够持久化时可使用序列化,如果内存充足,可以使用副本并将原创 2021-07-18 10:43:43 · 2253 阅读 · 0 评论