大数据
封景12306
这个作者很懒,什么都没留下…
展开
-
Hadoop/Spark面试问题(上)
@[Hadoop/Spark面试问题]hdfs作为存储的优点:高容错性:数据自动保留多个副本,防止数据丢失。某一个副本丢失后他可以自动恢复。适合批处理:通过移动计算,而不是移动数据。适合大量数据的存储:存储GB、TB、PB都可以。可以部署在廉价机器上。HDFS如何存储(写入)数据:文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。与 Nam...原创 2019-02-15 17:46:01 · 1135 阅读 · 1 评论 -
Hadoop/Spark面试问题(下)
spark有哪些组件:master:管理集群和节点,不参与计算。worker:计算节点,进程本身不参与计算,和master汇报。Driver:运行程序的main方法,创建spark context对象。spark context:控制整个application的生命周期,包括dagsheduler和task scheduler等组件。client:用户提交程序的入口。spark工作机制...原创 2019-02-17 15:57:29 · 305 阅读 · 1 评论