大数据
Rainpacker
这个作者很懒,什么都没留下…
展开
-
CentOS 7 Spark开发单机环境搭建
本文主要记录大数据开发中Linux CentOS7环境下apache的bin版本(源码编译参见https://blog.csdn.net/t_T_c/article/details/98093324)的Hadoop pseudo-distributed、Yarn、Hive、Spark local环境的搭建,该环境主要用户本地虚拟机测试/练手 > 强烈建议配合官方文档食用,师傅领进门,修行靠...原创 2019-07-21 10:29:25 · 544 阅读 · 0 评论 -
Win10 Spark开发环境搭建及基本模式
本小结主要记录win10下基于scala的spark开发环境搭建,主要有Intellij中sacla插件导入和maven的使用 > 参见scala官方文档:https://docs.scala-lang.org/getting-started-intellij-track/getting-started-with-scala-in-intellij.html ###一、开发...原创 2019-07-21 11:35:14 · 427 阅读 · 0 评论 -
基于慕课网日志分析项目的离线数据处理架构简记
这两天按照慕课网视频,跟着老师打了一遍代码,走了一下SparkSQL的离线数据处理流程,为此做一下整理和小结 > 项目源码参见:https://github.com/pontsh/ImoocSparkSQLProject ### 一、离线处理架构(基于上述日志分析项目) - (一)数据采集:在线/离线搬运(如Flume) - (二)数据清洗:Spark(或其他分布式计算框...原创 2019-07-23 09:23:27 · 275 阅读 · 0 评论 -
CentOS 7下编译Spark源码的坑及解决方案
Spark源码编译断断续续地搞了三天,期间因为虚拟机存储空间、网络等各种问题卡了很久,但幸好最后没有放弃。 这篇博文主要记录一些采用Maven将Spark2.4.3编译为支持Hadoop2.6.0-CDH5.13.0过程中碰到的坑和编译小结。 目录 一、阅读官网 二、开始编译 三、手动释放内存 四、小结 <=太长不看版 一、阅读官网 官网永远是最权威的。(参见...原创 2019-08-01 21:47:41 · 393 阅读 · 0 评论