学习Spark第一天---1张图了解Spark

原创 2014年08月10日 13:44:18
最近对Spark产生些兴趣,从今天开始踏上学习之路。大家别误解,我对雪佛兰的微型车不感兴趣,指的是大数据平台相关的Spark计算框架。
小弟接触过hadoop和storm, 对Spark还是新手,还望路过的各位多多指点。


        2009年,UC Berkeley的AMP实验室创立了Spark项目。该项目是要创建类似Hadoop MapReduce的并行分布式计算框架,因此它继承MR的所有优点。除此之外,它还有如下优势:
  <1> 代码轻量级(核心代码用Scala实现,20000+)
  <2> 运算速度快:主要是因为其运算中间结果直接保存在内存中。这使得Spark更适用于数据挖据和机器学习等需要迭代的计算类型。
  <3> 提供更多种类的数据集操作,不像MapReduce,只有Map和Reduce两种类型。
  <3> 可以和Hadoop及现存Hadoop数据整合。

在网上还查到一些关于Spark和Hadoop的比较:

“代码量方面,Spark:   20000+;Hadoop:  90000+ (1.0版本) / 220,000+ (2.0版本)。Spark立足内存计算,性能超Hadoop百倍,即使使用磁盘,其迭代计算也会有10倍提升。 ”

        2013年,Spark进入Apache孵化器,并成为ASF的顶级项目,其社区支持也已超过Hadoop MapReduce.

        Spark可以运行在Window和类Unix系统上(Linux, Mac OS等等)。唯一安装依赖是Java环境, 要求是Java 6+。
此外Spark还支持Python和Scala语言,版本要求如下:  
Python 2.6+
Scala 2.10.x (Scala版本是针对Spark 1.0.2)

最后,用一张图来描述Spark Overview:


参考资料: 

spark.apache.org/

http://www.csdn.net/article/2014-06-18/2820283


本文比较肤浅,还请各位见谅。以后在学习Spark过程中会尽力提高。




IT人的微信自媒体--- 杰天空, 走在寻找创意的路上
发掘创意,点缀生活,品味人生。
请搜索微信订阅号: jksy_studio  ,或者微信扫描头像二维码添加关注



杰天空静候您的光临。




我的spark学习之路(一)

2016.8.10其实北京一年,我也一直在考虑我回所到底研究什么方向,但都只是停留在想想的层次,最终也没什么结果,回来老师问了我的想法说,学分布式计算吧,读博也可以,找工作也好找,文章也好发,我一想,...
  • xtfge0915
  • xtfge0915
  • 2016年08月10日 23:38
  • 4933

基于Spark的机器学习经验

这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了Spar...
  • allwefantasy
  • allwefantasy
  • 2016年01月02日 10:27
  • 15149

Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

- “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 - “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的...
  • yirenboy
  • yirenboy
  • 2015年09月11日 09:22
  • 4326

Spark学习第一天-转自徽沪一郎

Apache Spark源码走读之1 -- Spark论文阅读笔记 欢迎转载,转载请注明出处,徽沪一郎。 楔子 源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那...
  • xiaohang20103
  • xiaohang20103
  • 2015年04月07日 21:54
  • 557

第105讲 Spark Streaming电商广告点击综合案例在线点击统计实战项目第一天

本讲的目标是广告点击流进来,我们对它进行统计。首先实现对数据进行统计,后续十讲我们再做其它操作。 1:spark用scala开发,只能用java与数据库交互,用Hbase交互的时候,Spark在线上生...
  • qq_21234493
  • qq_21234493
  • 2016年05月23日 06:42
  • 1205

SPARK零基础第一天

一.大数据IMF传奇行动           1、目的:                    1.发布DT大数据梦工厂版本的SPARK,做最好版本的spark,每周迭代一次          ...
  • zhaoxf1983
  • zhaoxf1983
  • 2016年05月09日 08:12
  • 152

Spark机器学习

  • 2018年01月16日 15:39
  • 9.54MB
  • 下载

Spark机器学习模块源码解读

  • 2018年01月16日 15:42
  • 6.45MB
  • 下载

spark机器学习

  • 2018年01月16日 20:39
  • 9.54MB
  • 下载

基于Spark和Cloudera数据科学家工作平台的分布式机器学习实践

  • 2018年01月04日 10:45
  • 17.29MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:学习Spark第一天---1张图了解Spark
举报原因:
原因补充:

(最多只允许输入30个字)