spark学习

1.cloudera如何在spark-shell命令行执行spark hql

http://www.aboutyun.com/thread-12031-1-1.html

 

2.如何在CDH5上运行Spark应用

http://itindex.net/detail/52731-cdh5-spark-%E5%BA%94%E7%94%A8

 

3.Spark 入门(Python、Scala 版)

http://www.open-open.com/lib/view/open1430959545695.html

 

4.python程序写spark

提交命令:./spark-submit  test.py  或者 python test.py

http://www.tuicool.com/articles/Ajuyqan

 

5.不同job之间共享数据需要使用第三方框架:redis或者tachyon技术

关于tachyon的介绍:http://www.csdn.net/article/2015-06-25/2825056

 

6.spark安装scala环境

http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/

 

7.将编写的java spark程序打包放到spark集群中测试

/opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/bin/spark-submit  --class com.infohold.Demo /tmp/sparkJar/b.jar

简单测试代码:
    public static void main(String[] args) {
        // TODO Auto-generated method stub
        
        JavaSparkContext sc= new JavaSparkContext(new SparkConf().setAppName("sparkApp"));
        JavaRDD lines = sc.textFile("hdfs://cdh5Namenode.hadoop.com:8020/test/input/file", 1);
        lines.saveAsTextFile("hdfs://cdh5Namenode.hadoop.com:8020/test/output");
    }

 

 

8.使用maven对scala程序进行打包

maven eclipse插件:http://www.cnblogs.com/adolfmc/p/3765583.html

Scala + Spark +Maven:

http://wenku.baidu.com/link?url=ZC4s2RPU1oi92xpMf4B2rjsNILL_SgG48M4g3DvtVaB3FfbTHSxrcZP5vgl-rS2ps2Gta-NUPu0meeZAxBDzyZFkvueqLN4__NItP6tdGhG

 

9.基于用户spark标签查询设计

http://www.docin.com/p-1203437608.html

 

10.使用 Spark SQL 对结构化数据进行统计分析

http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/

 

11.Spark Streaming 图片处理案例介绍

http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming-picture/

 

12.我使用DSL编写SQL的一个Java实现

http://www.blogjava.net/heis/archive/2010/03/21/316103.html

 

13.使用Spark SQL读取Hive上的数据

http://www.iteblog.com/archives/1491

 

14.Hive sql语法详解

http://blog.csdn.net/jamesjxin/article/details/46917225

 

15.spark 中的jdbc-server使用

http://blog.csdn.net/javastart/article/details/42392963

 

16.spark-sql代码错误解决

reflect.runtime.universe.TypeTag[Person])org.apache.spark.sql.SchemaRDD

http://www.oschina.net/question/2350186_232940

 

17.spark on yarn提交任务时一直显示ACCEPTED

http://my.oschina.net/mkh/blog/310158

 

18.测试 cdh5.3.0 版本中的 spark 的 sql/hive-thriftserver 模块存在编译错误,最后无法编译成功,故需要等到 cloudera 官方更新源代码或者等待下一个 cdh 版本集成 spark-sql

http://dataunion.org/10345.html

 

19.Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介

http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool

 

20.spark源码编译

www.codesec.net/view/181887.html

 

21.合并rdd

http://www.linuxidc.com/Linux/2016-01/127901.htm

 

22.spark运行在yarn-client和yarn-cluster的选型

http://www.iteblog.com/archives/1223

yarn-client运行在本地应用程序交互式情景:http://www.dataguru.cn/article-6807-1.html

23.spark on yarn模式开发者需要做的事情

http://dongxicheng.org/framework-on-yarn/spark-on-yarn-challenge/

http://www.iteblog.com/archives/1353

http://www.tuicool.com/articles/2EvyEr

http://dongxicheng.org/recommend/

日志存放设计:http://www.iteblog.com/archives/1353

log4j.properties配置:http://blog.csdn.net/stark_summer/article/details/46929481

应用程序中添加log4j:http://www.ibm.com/developerworks/cn/java/l-log4j/

scala程序参考:http://blog.chinaunix.net/uid-25885064-id-3430852.html

log4j的使用步骤:http://blog.sina.com.cn/s/blog_61cc0b1e0101eezx.html

commons-logging和log4j结合使用:http://blog.csdn.net/jimmee/article/details/2168452

 

23.java.io.NotSerializableException: com.infohold.spark.SparkSql

http://www.sjsjw.com/103/005844MYM031811/

 

24.spark-sql on yarn 自动调整exeutor数量

http://blog.chinaunix.net/uid-22570852-id-5182664.html

spark调优参数学习:http://database.51cto.com/art/201407/445881.htm

spark基本概念:http://database.51cto.com/art/201404/435697.htm

 

25.spark中文手册

 

http://www.aboutyun.com/thread-11484-1-1.html

 

26.错误解决

 

SparkOnYarn执行中executor内存限制问题

http://www.sjsjw.com/107/001051MYM028913/

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

http://my.oschina.net/laigous/blog/478438#OSC_h4_10

修改spark-env.sh文件

添加:

export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.5.2-1.cdh5.5.2.p0.4/lib/hadoop/etc/hadoop


export SPARK_DIST_CLASSPATH=$(hadoop classpath)

 

27.spark性能测试

http://www.iteblog.com/archives/1090

sparksql华为现状分析:http://bbs.csdn.net/topics/391830076

 

Spark&Spark性能调优实战

http://itindex.net/detail/50670-spark-spark-%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98

 

 

我们经过一系列对Spark的优化,使得单次查询的用时从最开始的40秒,优化到了2秒。

 

28.spark性能优化

这部分的优化工作包括:

 

1数据和task分布不均,跨节点访问造成部分task慢
 

办法:尽量增加hdfs上的备份数,减少数据跨节点访问

 

2 Spark没有创建足够多的Task并发执行
 

办法:增加HDFS文件block数, 增加文件数

 

3 磁盘IO耗时较长
 

办法:使用RCFile格式+GZ压缩存储

 

4 并发查询较多时,查询耗时变长
 

办法:需要增加ThriftServer的内存, 避免大量GC

 

5 序列化的CPU消耗较大
 

办法:选用kyro序列化方式

 

29.函数分析

创建并行集合的一个重要参数,是slices的数目,它指定了将数据集切分为几份。在集群模式中,Spark将会在一份slice上起一个Task。典型的,你可以在集群中的每个cpu上,起2-4个Slice (也就是每个cpu分配2-4个Task)。一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。然而,你也可以手动的设置它,通过parallelize方法的第二个参数(例如:sc.parallelize(data, 10)).

 

30.spark RDD中foreachPartition和foreach说明

https://blog.csdn.net/high2011/article/details/52128412

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦里仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值