1.cloudera如何在spark-shell命令行执行spark hql
http://www.aboutyun.com/thread-12031-1-1.html
2.如何在CDH5上运行Spark应用
http://itindex.net/detail/52731-cdh5-spark-%E5%BA%94%E7%94%A8
3.Spark 入门(Python、Scala 版)
http://www.open-open.com/lib/view/open1430959545695.html
4.python程序写spark
提交命令:./spark-submit test.py 或者 python test.py
http://www.tuicool.com/articles/Ajuyqan
5.不同job之间共享数据需要使用第三方框架:redis或者tachyon技术
关于tachyon的介绍:http://www.csdn.net/article/2015-06-25/2825056
6.spark安装scala环境
http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/
7.将编写的java spark程序打包放到spark集群中测试
/opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/bin/spark-submit --class com.infohold.Demo /tmp/sparkJar/b.jar
简单测试代码:
public static void main(String[] args) {
// TODO Auto-generated method stub
JavaSparkContext sc= new JavaSparkContext(new SparkConf().setAppName("sparkApp"));
JavaRDD lines = sc.textFile("hdfs://cdh5Namenode.hadoop.com:8020/test/input/file", 1);
lines.saveAsTextFile("hdfs://cdh5Namenode.hadoop.com:8020/test/output");
}
8.使用maven对scala程序进行打包
maven eclipse插件:http://www.cnblogs.com/adolfmc/p/3765583.html
Scala + Spark +Maven:
http://wenku.baidu.com/link?url=ZC4s2RPU1oi92xpMf4B2rjsNILL_SgG48M4g3DvtVaB3FfbTHSxrcZP5vgl-rS2ps2Gta-NUPu0meeZAxBDzyZFkvueqLN4__NItP6tdGhG
9.基于用户spark标签查询设计
http://www.docin.com/p-1203437608.html
10.使用 Spark SQL 对结构化数据进行统计分析
http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/
11.Spark Streaming 图片处理案例介绍
http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming-picture/
http://www.blogjava.net/heis/archive/2010/03/21/316103.html
http://www.iteblog.com/archives/1491
http://blog.csdn.net/jamesjxin/article/details/46917225
http://blog.csdn.net/javastart/article/details/42392963
16.spark-sql代码错误解决
reflect.runtime.universe.TypeTag[Person])org.apache.spark.sql.SchemaRDD
http://www.oschina.net/question/2350186_232940
17.spark on yarn提交任务时一直显示ACCEPTED
http://my.oschina.net/mkh/blog/310158
18.测试 cdh5.3.0 版本中的 spark 的 sql/hive-thriftserver 模块存在编译错误,最后无法编译成功,故需要等到 cloudera 官方更新源代码或者等待下一个 cdh 版本集成 spark-sql
http://dataunion.org/10345.html
19.Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool
20.spark源码编译
www.codesec.net/view/181887.html
21.合并rdd
http://www.linuxidc.com/Linux/2016-01/127901.htm
22.spark运行在yarn-client和yarn-cluster的选型
http://www.iteblog.com/archives/1223
yarn-client运行在本地应用程序交互式情景:http://www.dataguru.cn/article-6807-1.html
23.spark on yarn模式开发者需要做的事情
http://dongxicheng.org/framework-on-yarn/spark-on-yarn-challenge/
http://www.iteblog.com/archives/1353
http://www.tuicool.com/articles/2EvyEr
http://dongxicheng.org/recommend/
日志存放设计:http://www.iteblog.com/archives/1353
log4j.properties配置:http://blog.csdn.net/stark_summer/article/details/46929481
应用程序中添加log4j:http://www.ibm.com/developerworks/cn/java/l-log4j/
scala程序参考:http://blog.chinaunix.net/uid-25885064-id-3430852.html
log4j的使用步骤:http://blog.sina.com.cn/s/blog_61cc0b1e0101eezx.html
commons-logging和log4j结合使用:http://blog.csdn.net/jimmee/article/details/2168452
23.java.io.NotSerializableException: com.infohold.spark.SparkSql
http://www.sjsjw.com/103/005844MYM031811/
24.spark-sql on yarn 自动调整exeutor数量
http://blog.chinaunix.net/uid-22570852-id-5182664.html
spark调优参数学习:http://database.51cto.com/art/201407/445881.htm
spark基本概念:http://database.51cto.com/art/201404/435697.htm
25.spark中文手册
http://www.aboutyun.com/thread-11484-1-1.html
26.错误解决
SparkOnYarn执行中executor内存限制问题
http://www.sjsjw.com/107/001051MYM028913/
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
http://my.oschina.net/laigous/blog/478438#OSC_h4_10
修改spark-env.sh文件
添加:
export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.5.2-1.cdh5.5.2.p0.4/lib/hadoop/etc/hadoop
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
27.spark性能测试
http://www.iteblog.com/archives/1090
sparksql华为现状分析:http://bbs.csdn.net/topics/391830076
Spark&Spark性能调优实战
http://itindex.net/detail/50670-spark-spark-%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98
我们经过一系列对Spark的优化,使得单次查询的用时从最开始的40秒,优化到了2秒。
28.spark性能优化
这部分的优化工作包括:
1数据和task分布不均,跨节点访问造成部分task慢
办法:尽量增加hdfs上的备份数,减少数据跨节点访问
2 Spark没有创建足够多的Task并发执行
办法:增加HDFS文件block数, 增加文件数
3 磁盘IO耗时较长
办法:使用RCFile格式+GZ压缩存储
4 并发查询较多时,查询耗时变长
办法:需要增加ThriftServer的内存, 避免大量GC
5 序列化的CPU消耗较大
办法:选用kyro序列化方式
29.函数分析
创建并行集合的一个重要参数,是slices的数目,它指定了将数据集切分为几份。在集群模式中,Spark将会在一份slice上起一个Task。典型的,你可以在集群中的每个cpu上,起2-4个Slice (也就是每个cpu分配2-4个Task)。一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。然而,你也可以手动的设置它,通过parallelize方法的第二个参数(例如:sc.parallelize(data, 10)).
30.spark RDD中foreachPartition和foreach说明
https://blog.csdn.net/high2011/article/details/52128412