spark
文章平均质量分 56
reylee911
这个作者很懒,什么都没留下…
展开
-
Spark特性分析
Spark是快速轻量级大规模数据处理引擎优势:1, 与hadoop mapReduce相比,内存中处理速度100倍以上,磁盘中10倍以上。2, 简单易用,快速编写java,scala或者python应用来处理。3, 通用性强,可以把SQL,streaming和复杂分析结合起来使用。4, 应用广泛,能运行在hadoop,mesos或者云中,可以获取多样性的数据源,例如hdfs,C翻译 2015-06-02 13:47:25 · 650 阅读 · 0 评论 -
spark安装和试用入门
1, 下载spark版本:git clone git://github.com/apache/spark.git -b branch-1.32, 编译spark: mvn -DskipTests cleanpackage3,使用spark(python环境下)pyspark基于README.cmd 生成RDD:>>> textFile= sc.t翻译 2015-06-02 16:00:41 · 655 阅读 · 0 评论 -
spark与hadoop集成详解
我们经常被问到如何让spark集成到hadoop生态系统中,如何让spark在现有的hadoop集群中运行,本文的目的就是来回答上述问题。1,spark主要用于提高而不是取代hadoop栈,从一开始spark就被设计从hdfs中读取存储数据,类似于其他的存储系统,例如Hbase, Amazon S3等,因此,hadoop用户可以通过结合spark来提高hadoop MR, Hbase 及其他大翻译 2015-06-03 15:08:02 · 5272 阅读 · 1 评论 -
基于Yarn运行spark应用的进程分析
首先配置HADOOP_CONF_DIR或者YARN_CONF_DIR指向hadoop集群,从而可以调用Yarn的资源管理器。两种模式:1,Yarn-client:Spark driver运行在client进程中,只是利用AM(applicationMaster)向Yarn的资源管理模块申请资源。运行此种模式只需指定参数yarn-client即可,例如:[root@l原创 2015-06-05 15:58:11 · 1963 阅读 · 0 评论