大数据开发
文章平均质量分 85
一起学习计算机
这个作者很懒,什么都没留下…
展开
-
Hbase面试题(持续更新)
1、每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据 1)百亿数据:证明数据量非常大 2)存入HBase:证明是跟HBase的写入数据有关 3)保证数据的正确:要设计正确的数据结构保证正确性 4)在规定时间内完成:对存入速度是有要求的 那么针对以上的四个问题我们来一一分析 1)数据量百亿条,什么概念呢?假设一整天60x60x24 = 86400秒都在写入数据,那么每秒的写入条数高达100万条,HBase当然是支持不了每秒百万条数据的,所以这百亿条数据可能不是通过实时原创 2020-11-28 20:37:30 · 914 阅读 · 0 评论 -
Spark作业提交的方式
Spark作业提交的方式 在Spark中,支持4种运行模式: Local:开发时使用 Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境 YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度 Mesos 不管使用什么模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通过–master参数来指定我们的运行模式即可 1、Local模式 提交Spark Applicatio原创 2020-11-22 22:21:14 · 343 阅读 · 0 评论