spark
小飞侠-2
我的github地址https://github.com/liujiekasini 欢迎大家分享讨论
展开
-
Spark 学习入门教程
转载请注明作者,谢谢支持! 一、环境准备 测试环境使用的cdh提供的quickstart vm hadoop版本:2.5.0-cdh5.2.0 spark版本:1.1.0 二、Hello Spark 将/usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.转载 2015-12-18 14:42:48 · 879 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度转载 2016-04-26 15:44:35 · 352 阅读 · 0 评论 -
spark sql简单示例
运行环境 集群环境:CDH5.3.0 具体JAR版本如下: spark版本:1.2.0-cdh5.3.0 hive版本:0.13.1-cdh5.3.0 hadoop版本:2.5.0-cdh5.3.0 spark sql的JAVA版简单示例 spark sql直接查询JSON格式的数据 spark sql的自定义函数 sp转载 2016-04-26 15:56:01 · 1291 阅读 · 1 评论 -
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2017-02-15 15:44:52 · 772 阅读 · 0 评论