spark学习

最新推荐文章于 2020-03-04 14:18:34 发布

梦里仙

最新推荐文章于 2020-03-04 14:18:34 发布

阅读量2.1k

点赞数

本文链接：https://blog.csdn.net/gjq2267787274/article/details/50541906

版权

1.cloudera如何在spark-shell命令行执行spark hql

http://www.aboutyun.com/thread-12031-1-1.html

2.如何在CDH5上运行Spark应用

http://itindex.net/detail/52731-cdh5-spark-%E5%BA%94%E7%94%A8

3.Spark 入门（Python、Scala 版）

http://www.open-open.com/lib/view/open1430959545695.html

4.python程序写spark

提交命令:./spark-submit test.py 或者 python test.py

http://www.tuicool.com/articles/Ajuyqan

5.不同job之间共享数据需要使用第三方框架：redis或者tachyon技术

关于tachyon的介绍：http://www.csdn.net/article/2015-06-25/2825056

6.spark安装scala环境

http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/

7.将编写的java spark程序打包放到spark集群中测试

/opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/bin/spark-submit --class com.infohold.Demo /tmp/sparkJar/b.jar

简单测试代码：
   public static void main(String[] args) {
       // TODO Auto-generated method stub

       JavaSparkContext sc= new JavaSparkContext(new SparkConf().setAppName("sparkApp"));
       JavaRDD lines = sc.textFile("hdfs://cdh5Namenode.hadoop.com:8020/test/input/file", 1);
       lines.saveAsTextFile("hdfs://cdh5Namenode.hadoop.com:8020/test/output");
   }

8.使用maven对scala程序进行打包

maven eclipse插件:http://www.cnblogs.com/adolfmc/p/3765583.html

Scala + Spark +Maven:

http://wenku.baidu.com/link?url=ZC4s2RPU1oi92xpMf4B2rjsNILL_SgG48M4g3DvtVaB3FfbTHSxrcZP5vgl-rS2ps2Gta-NUPu0meeZAxBDzyZFkvueqLN4__NItP6tdGhG

9.基于用户spark标签查询设计

http://www.docin.com/p-1203437608.html

10.使用 Spark SQL 对结构化数据进行统计分析

http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/

11.Spark Streaming 图片处理案例介绍

http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming-picture/

12.我使用DSL编写SQL的一个Java实现

http://www.blogjava.net/heis/archive/2010/03/21/316103.html

13.使用Spark SQL读取Hive上的数据

http://www.iteblog.com/archives/1491

14.Hive sql语法详解

http://blog.csdn.net/jamesjxin/article/details/46917225

15.spark 中的jdbc-server使用

http://blog.csdn.net/javastart/article/details/42392963

16.spark-sql代码错误解决

reflect.runtime.universe.TypeTag[Person])org.apache.spark.sql.SchemaRDD

http://www.oschina.net/question/2350186_232940

17.spark on yarn提交任务时一直显示ACCEPTED

http://my.oschina.net/mkh/blog/310158

18.测试 cdh5.3.0 版本中的 spark 的 sql/hive-thriftserver 模块存在编译错误，最后无法编译成功，故需要等到 cloudera 官方更新源代码或者等待下一个 cdh 版本集成 spark-sql

http://dataunion.org/10345.html

19.Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool

20.spark源码编译

www.codesec.net/view/181887.html

21.合并rdd

http://www.linuxidc.com/Linux/2016-01/127901.htm

22.spark运行在yarn-client和yarn-cluster的选型

http://www.iteblog.com/archives/1223

yarn-client运行在本地应用程序交互式情景：http://www.dataguru.cn/article-6807-1.html

23.spark on yarn模式开发者需要做的事情

http://dongxicheng.org/framework-on-yarn/spark-on-yarn-challenge/

http://www.iteblog.com/archives/1353

http://www.tuicool.com/articles/2EvyEr

http://dongxicheng.org/recommend/

日志存放设计:http://www.iteblog.com/archives/1353

log4j.properties配置:http://blog.csdn.net/stark_summer/article/details/46929481

应用程序中添加log4j：http://www.ibm.com/developerworks/cn/java/l-log4j/

scala程序参考:http://blog.chinaunix.net/uid-25885064-id-3430852.html

log4j的使用步骤:http://blog.sina.com.cn/s/blog_61cc0b1e0101eezx.html

commons-logging和log4j结合使用:http://blog.csdn.net/jimmee/article/details/2168452

23.java.io.NotSerializableException: com.infohold.spark.SparkSql

http://www.sjsjw.com/103/005844MYM031811/

24.spark-sql on yarn 自动调整exeutor数量

http://blog.chinaunix.net/uid-22570852-id-5182664.html

spark调优参数学习:http://database.51cto.com/art/201407/445881.htm

spark基本概念:http://database.51cto.com/art/201404/435697.htm

25.spark中文手册

http://www.aboutyun.com/thread-11484-1-1.html

26.错误解决

SparkOnYarn执行中executor内存限制问题

http://www.sjsjw.com/107/001051MYM028913/

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

http://my.oschina.net/laigous/blog/478438#OSC_h4_10

修改spark-env.sh文件

添加:

export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.5.2-1.cdh5.5.2.p0.4/lib/hadoop/etc/hadoop

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

27.spark性能测试

http://www.iteblog.com/archives/1090

sparksql华为现状分析:http://bbs.csdn.net/topics/391830076

Spark&Spark性能调优实战

http://itindex.net/detail/50670-spark-spark-%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98

我们经过一系列对Spark的优化，使得单次查询的用时从最开始的40秒，优化到了2秒。

28.spark性能优化

这部分的优化工作包括：

1数据和task分布不均,跨节点访问造成部分task慢

办法：尽量增加hdfs上的备份数,减少数据跨节点访问

2 Spark没有创建足够多的Task并发执行

办法：增加HDFS文件block数, 增加文件数

3 磁盘IO耗时较长

办法：使用RCFile格式+GZ压缩存储

4 并发查询较多时,查询耗时变长

办法：需要增加ThriftServer的内存, 避免大量GC

5 序列化的CPU消耗较大

办法：选用kyro序列化方式

29.函数分析

创建并行集合的一个重要参数，是slices的数目，它指定了将数据集切分为几份。在集群模式中，Spark将会在一份slice上起一个Task。典型的，你可以在集群中的每个cpu上，起2-4个Slice （也就是每个cpu分配2-4个Task）。一般来说，Spark会尝试根据集群的状况，来自动设定slices的数目。然而，你也可以手动的设置它，通过parallelize方法的第二个参数（例如：sc.parallelize(data, 10)).

30.spark RDD中foreachPartition和foreach说明

https://blog.csdn.net/high2011/article/details/52128412