![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
关于Spark相关的总结。
BAStriver
无限自由中偏爱的一种约束,就是梦想。
展开
-
正确提交spark到yarn的demo
通过Spark-submit在xshell提交命令行,如果集群配置了keberos的话需要在打包的jar中进行认证,认证文件上传到节点并且需要分发到每一个节点,节点之间需要无密码ssh登录。 因为是通过Spark-submit提交程序,所以在代码当中的SparkConf设置为.setMaster("yarn-cluster")如果提交显示classnotfound可能是...原创 2018-05-22 14:05:22 · 4024 阅读 · 0 评论 -
总结大数据采集的一些见解
1.首先,在我看来,基本上根据数据的流向自底向上划分五层,跟传统的数据仓库其实很类似,数据类的系统,概念上还是相通的,分别为五个:数据采集层、数据处理层、数据分析层、数据访问层及应用层。2.数据采集层:由于数据源的多样性,很多时候我们采集的工具可能不止一个。大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点。既包括传统的ETL离线...转载 2019-03-08 18:16:19 · 1907 阅读 · 0 评论