![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
sage_wang
爱技术,爱音乐,爱运动
展开
-
Spark之路:(一)Scala + Spark + Hadoop环境搭建
一、Spark 介绍 Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。1.提供分布式计算功能,将分布式存储的数据读入,同时将任务分发到各个节点进行计算;2.基于内存计算,将磁盘数据读入内存,将计算的中间结果保存在内存,这样可以很好的进原创 2018-02-02 11:27:25 · 16863 阅读 · 0 评论 -
Spark之路:(二)wordCount小试
一、开发环境 IDEA1、Scala插件打开IDEA -> Configure -> Plugins -> 选择Scala -> Install2、Scala的Jar包File -> Project Structure -> Global Libraries -> “+” -> Java -> 选择本地Scala的lib库文件 3、Spark的Jar包 解决原创 2018-02-02 14:27:40 · 5654 阅读 · 0 评论