Spark的介绍

Spark 是快速的、hadoop数据的通用处理引擎;可以运行在hadoop的YARN集群上或者单机模式;可以处理任何格式的hadoop数据;为了批处理和新的流处理、机器学习而设计。


一、优点:

1、快速:

在内存中,spark可以比hadoop的MR快100多倍;在磁盘上,快10多倍。

2、易用性:

Java, Scala, Python, R.

3、普适性:

including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming

4、运行环境多:

runs on Hadoop, Mesos, standalone, or in the cloud. 


二、内置库:

1、Spark SQL:http://spark.apache.org/docs/latest/sql-programming-guide.html

无缝融入sql查询语句:

context =  HiveContext (sc)
results = context. sql (
   "SELECT * FROM people" )
names = results. map ( lambda p: p.name )


统一数据连接:可以用sql关联不同数据源的表!!!

context.jsonFile("s3n://...")
  .registerTempTable("json")
results = context.sql(
  """SELECT * 
     FROM people
     JOIN json ..."""
)


HIVE兼容:可以用UDF。

标准连接:BI工具利用JDBC|ODBC连接,通过Spark SQL来访问大数据。

2、Spark Streaming:http://spark.apache.org/docs/latest/streaming-programming-guide.html

可以很容易的构建可伸缩性、容错性强的流处理应用。


3、MLlib:http://spark.apache.org/docs/latest/ml-guide.html

可用性:Usable in Java, Scala, Python, and R.

效果好:比mapreduce快100多倍

易部署。


4、GraphX:http://spark.apache.org/docs/latest/graphx-programming-guide.html

图形计算


5、第三方项目:

第三方公共库:spark-packages.org

基础项目:

SparkR - R frontend for Spark、

Zeppelin - an IPython-like notebook for Spark.



Reference:

http://spark.apache.org/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值