Spark
u011180846
这个作者很懒,什么都没留下…
展开
-
SparkSQL中DataFrame registerTempTable源码浅析
dataFrame.registerTempTable(tableName); 最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时,效率上是否会有很大的差距,也对DataFrame注册成临时表到底做了哪些比较好奇,拿来源码拜读了下相关部分,记录一下。 临时表的生命周期是和创建该DataFrame的SQLContext有关系的,SQLContext生命周期结...2015-10-09 13:56:16 · 514 阅读 · 0 评论 -
Spark之RDD基础
RDD概念:RDD是只读的,分区记录的集合RDD支持基于工作集的应用,同时具有数据流模型的特点:自动容错位置感知性调度可伸缩性速度快的原因:RDD允许用户在执行多个查询时显式的将工作集缓存在内存中,后续的查询能够重用工作集RDD的5个主要属性1.一组分片(Partition),数据集的基本组成单位. 每个Partition都会被逻辑映射成Block...2016-09-18 10:29:57 · 94 阅读 · 0 评论 -
SparkSQL操作sqlserver和postgresql示例
def main(agrs: Array[String]){ //configuration and new Spark Context val conf = new SparkConf().setAppName("SparkSQL_Select_Table") .set("spark.driver.allowMultipleContexts", "t...2015-11-03 20:15:03 · 497 阅读 · 0 评论 -
Spark将RDD转换成DataFrame的两种方式
介绍一下Spark将RDD转换成DataFrame的两种方式。1.通过是使用case class的方式,不过在scala 2.10中最大支持22个字段的case class,这点需要注意2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame装换成DataFrame后,就可以使用SparkSQL来进行数据筛选过滤等操作下面直接代码说话[...2016-10-01 22:32:01 · 1398 阅读 · 0 评论 -
SparkSQL Driver ClassNotFoundException的解决方案
在使用SparkSQL连接关系型数据库时,需要通过JDBC来加载对应数据库的驱动,如SQLServer JDBC连接用到的sqljdbc4.jar,处理时经常会遇到sparksql抛出jdbc的驱动程序ClassNotFoundException,类似下面的错误提示 Exception in thread "main" java.lang.ClassNotFoundException...2015-11-18 10:57:04 · 791 阅读 · 0 评论 -
记一次Spark集群查询速度变慢的问题调查
现象:针对某张表(下文中用A表代替)的查询速度慢了6s 简单介绍一下系统的架构:Spark + Tachyon + glusterfs+mesos,其中glusterfs负责tachyon数据的持久化,Spark从tachyon上加载数据,mesos负责Spark任务调度 通过对比分析Spark:4040页面提供的任务执行信息发现,A表的Spark任务中,出现了Loc...2015-11-24 10:50:00 · 771 阅读 · 0 评论 -
Spark1.6新特性简介及个人的理解
新的Spark1.6版本发布了,之前使用Spark1.4版本的SparkSQL,这次发布后主要关注了1.6版本的SparkSQL特性参阅了官方的Release Note和jira issue detail以及之前在使用1.4.0中的经验,跟大家分享一下Spark1.6部分新加的几个特性。 1. Dataset API目前Spark有两大类API:RDD API(Spark Core),D...2016-01-11 10:48:43 · 150 阅读 · 0 评论