Build Spark1.3.1 with CDH HADOOP

Build Spark1.3.1 with CDH HADOOP1、找到CDH的版本[root@web02 spark1.3]# hadoop version Hadoop 2.0.0-cdh4.7.0 Subversion file:///var/lib/jenkins/workspace/CDH4.7.0-Packaging-Hadoop/build/cdh4/hadoop/2.0.0-cdh4...
阅读(2085) 评论(0)

sbt pom reader - sbt读取pom

sbt pom reader - sbt读取pomSpark为了依赖项的统一管理用了sbt pom reader这个插件,sbt编译发布也是从pom里读GAV了。 我记得老版本sbt的依赖项是写在project/SparkBuild.scala里的。这个工具在java/scala项目内很有使用场景。地址在:https://github.com/sbt/sbt-pom-reader1.配置插件在/ap...
阅读(1830) 评论(0)

Spark SQL之External DataSource外部数据源(二)源码分析

Spark SQL在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。    在Spark SQL源代码的org/spark/sql/sources目...
阅读(7176) 评论(1)

Spark SQL之External DataSource外部数据源(一)示例

一、Spark SQL External DataSource简介  随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。  这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家...
阅读(6321) 评论(0)

sbt发布assembly解决jar包冲突问题 deduplicate: different file contents found in the following

一、问题定义最近在用sbt打assembly包时出现问题,在package的时候,发生jar包冲突/文件冲突问题,两个相同的class来自不同的jar包在classpath内引起冲突。具体是:我有一个self4j的jar, 还有一个hadoop-common-hdfs的jar包,其中hadoop-common-hdfs.jar内包含了self4j这个jar包,导致冲突。此类异常一般是由于打包不规范...
阅读(8662) 评论(3)

Spark 常见问题小结

1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered and have sufficient memory当前的集群的可用资源不能满足应用程序所请求的资源。资源分2类: cores 和 ramCo...
阅读(2802) 评论(0)

Spark SQL 源码分析之 In-Memory Columnar Storage 之 in-memory query

Spark SQL源码分析之如何查询cache后的table...
阅读(4572) 评论(0)

Spark SQL 源码分析之 In-Memory Columnar Storage 之 cache table

Spark SQL缓存到内存中的数据的存储策略...
阅读(7211) 评论(0)

Spark SQL UDF使用

spark sql udf编写及使用...
阅读(10187) 评论(0)

Spark SQL Catalyst源码分析之UDF

Spark SQL UDF 源码分析...
阅读(6462) 评论(1)

Spark Executor Driver资源调度小结

Spark中Executor的生成策略...
阅读(14267) 评论(0)

Run Test Case on Spark

本文讲述了如何运行Spark的测试用例...
阅读(4089) 评论(1)

Spark的应用程序执行模型

Spark应用程序编写,执行应该注意的问题。...
阅读(2907) 评论(0)

Spark SQL 源码分析之Physical Plan 到 RDD的具体实现

Spark SQL 物理计划到 RDD 的计算过程实现。...
阅读(5667) 评论(0)

[置顶] Spark SQL 源码分析系列文章

Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。...
阅读(18811) 评论(1)
42条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:465569次
    • 积分:5148
    • 等级:
    • 排名:第5351名
    • 原创:80篇
    • 转载:0篇
    • 译文:1篇
    • 评论:67条
    博客专栏
    微博
    文章分类
    最新评论