Spark篇
文章平均质量分 56
iteye_13851
这个作者很懒,什么都没留下…
展开
-
spark原理介绍
1、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存,如96G以上。 2、spark所有操作均基于RDD,操作主要分成2大类:transformation与action。 3、spark提供了交互处理接口,类似于shell的使用。 4、spark可以优化迭代工作负载,因为中间数据均保存于内存中。 5、spark 是在 Scala ...原创 2015-11-13 08:56:41 · 126 阅读 · 0 评论 -
Spark RDD:弹性分布式数据集
文/牛肉圆粉不加葱(简书作者)原文链接:http://www.jianshu.com/p/207607888767著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。RDD是只读的、分区记录的集合一个RDD的生成只有两种途径:基于内存集合或稳定物理存储中的数据集执行确定性操作通过在已有的RDD上执行转换操作RDD具有自动容错、位置感知和可伸缩性特点RDD不需...原创 2016-03-14 14:06:09 · 103 阅读 · 0 评论 -
spark支持的sql 语法
from http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkSqlSupportedSyntax.htmlALLANDASASCAPPROXIMATEAVGBETWEENBYCACHECASTCOUNTDESCDISTINCTFALSEFIRST...原创 2016-02-25 15:37:53 · 1293 阅读 · 0 评论 -
spark使用logback+slf4j 替换log4j+slf4j
背景: spark1.6以前的版本默认是log4j+slf4j的方案来做日志, 在我们实际开发项目的过程中大多数是使用logback+slf4j的方案来做日志。 配置方法: 1. logbak+slf4j 项目中 java类里面的代码的写法和 log4j+slf4j的 代码写法完全一模一样的import org.slf4j.Logger...原创 2016-02-21 12:45:11 · 1986 阅读 · 0 评论 -
Spark官方文档: Spark Configuration(Spark配置)
Spark主要提供三种位置配置系统:环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中;java系统性能:可以控制内部的配置参数,两种设置方法:编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx”)语句设置相应系统属性值);在conf/spark-e...原创 2016-01-07 15:50:31 · 102 阅读 · 0 评论 -
hive中的left semi join替换sql中的in操作
hive中的left semi join替换sql中的in操作 LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。 LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 W...原创 2015-12-15 17:10:44 · 337 阅读 · 0 评论 -
spark支持的SQL
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。作者:张宽链接:http://www.zhihu.com/question/34569764/answer/59217173来源:知乎protected val ALL = Keyword("ALL") protected val AND = Keyword("AND") protected val APPROXIMAT...原创 2015-12-15 16:10:44 · 209 阅读 · 0 评论 -
利用Spark进行对账demo
//利用cogroup 处理分隔符的文件import org.apache.spark.{ SparkContext, SparkConf }import java.sql.DriverManagerobject HandleGroup extends App{ val beginTime = System.currentTimeMillis() //引用spark...原创 2015-11-27 13:58:33 · 1142 阅读 · 0 评论 -
RDD的持久化
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(Actions)变得更加迅速(通常快10倍)。缓存是用Spark构建迭代算法的关键。你可以用persist()或cache()方法来标记一个要被持久化的RDD,然后一旦首次...原创 2015-11-25 14:49:47 · 146 阅读 · 0 评论 -
Spark RDD详解
1、RDD是什么 RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 为什么会产生RDD? (1)传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要...原创 2015-11-25 14:16:46 · 82 阅读 · 0 评论 -
Apache Spark 入门
什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不...原创 2015-11-23 11:03:28 · 163 阅读 · 0 评论 -
用Apache Spark进行大数据处理
from:http://www.infoq.com/cn/articles/apache-spark-sqlSpark SQL,作为Apache Spark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操作。在这一文章系列的第二篇中,我们...原创 2015-11-23 09:58:59 · 261 阅读 · 0 评论 -
sparkJDBC mysql
import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport java.util.Propertiesimport org.apache.spark.{ SparkContext, SparkConf }import org.apache.spark.sql.Rowimport org.apac...原创 2015-11-19 10:49:11 · 112 阅读 · 0 评论 -
spark SQL例子
spark SQL:在大数据查询是,使用SQL让我们方便了许多。。。1. pom <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-libra...原创 2015-11-19 10:44:40 · 122 阅读 · 0 评论 -
spark基本概念
1. Spark中的基本概念在Spark中,有下面的基本概念。Application:基于Spark的用户程序,包含了一个driver program和集群中多个executorDriver Program:运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor:为某Applicat...原创 2015-11-18 14:06:19 · 209 阅读 · 0 评论 -
Spark 读取文件中文乱码解决
当我们获取文本文件数据源是,直接使用如下代码会出现中文乱码问题val txt = sc.textFile(rootPath+ "/4/*") 解决方案:将文本先用数据流读进内存,转化成list,在转化成spark需要的格式。 val files = Source.fromFile("i:\\1\\1.txt","gbk" ).toList val rddt = sc.para...原创 2015-11-18 14:02:05 · 7394 阅读 · 0 评论 -
大数据学习路线
课程模块课程主题主要内容模块一Spark生态介绍¬ Mapreduce、storm和spark模型的比较和使用场景介绍¬ Spark产生背景¬ Spark(内存计算框架)¬ SparkSteaming(流式计算框架)¬ Spark SQL(ad-hoc)¬ Mllib(MachineLearning)¬ GraphX(bage...原创 2016-04-15 19:16:35 · 392 阅读 · 0 评论