spark
文章平均质量分 66
不管大小写
过去即是将来的根基
展开
-
spark-一些参数优化
Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化问题1:reduce task数目不合适解决方法:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。问题2:shuffle磁盘IO时间长解决方法:设置spa...原创 2018-06-29 15:30:34 · 1197 阅读 · 1 评论 -
Spark中cache和persist的作用以及存储级别
Spark有几种持久化级别如下(参考自博客):1.MEMORY_ONLY使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执行算子操作时,那些没有被持久化的数据,需要从源头处重新计算一遍。这是默认的持久化策略,使用cache()方法时,实际就是使用的这种持久化策略。2.MEMORY_AND_DISK使用未...转载 2018-08-31 11:00:45 · 423 阅读 · 0 评论 -
Spark shuffle性能优化
详细参见官方文档:http://spark.apache.org/docs/2.1.0/configuration.html1.spark.shuffle.consolidateFiles:是否开启shuffle block file的合并,默认为false (2.x废弃)---->数据在进行shuffle的时候,如果没有开启这个参数,那么就会从每个节点上的每个task上取拉去数据...原创 2018-08-07 23:10:59 · 432 阅读 · 0 评论 -
SPARK 学习资源汇总(1)
1. 书籍,在线文档Learning Spark Advanced.Analytics.with.Spark Mastering Apache Spark Official Guide Spark Guide by Cloudera2. 网站official site user mailing list spark channel on youtube spark summ...转载 2018-08-14 10:22:03 · 665 阅读 · 0 评论 -
SPARK-SQL 所有函数
一共241 个--------------------------------------------------------------------------------------------------------------!%&*+-/<<=<=>===>>=^absacosadd_monthsandapprox_count_distinct...原创 2018-07-07 01:05:05 · 934 阅读 · 0 评论 -
Spark DataFrame 相关函数汇总
DataFrame 的函数Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describe(cols: String*) 返回一个通过数学计算的类表...原创 2019-04-30 14:28:14 · 2374 阅读 · 0 评论 -
Spark2.X读取多种文件格式数据
Spark2.0+的文件读取转载自:点击打开链接 https://blog.csdn.net/next__one/article/details/78840908Spark可以读取多种格式文件,csv,json,parque。因此对应就有很多函数与之对应。在Spark2.0以后一般使用SparkSession来操作DataFrame、Dataset来完成数据分析。这些读取不同格式文件的函数就是S...转载 2018-06-28 16:37:55 · 1579 阅读 · 0 评论 -
DataFrame 操作之 if 判断
spark dataframede 的内容可以用filter,但是有时候逻辑不太实用,if用法; loadData.printSchema()val mid1 = loadData.withColumn("mont", loadData("sum")+1) .dropDuplicates("id").selectExpr("*","if(id=1,'张三','李四') as name")...原创 2018-06-28 15:02:57 · 11567 阅读 · 0 评论 -
spark submit 提交任务
1.提交spark python/java 任务bin/spark-submit my_script.py 如果后面没有参数,则只会在本地运行附带参数:--master 其可以接收的参数:spark-submit 的一般格式bin/spark-submit [options] <app jar | python file> [app options][option...原创 2018-06-29 15:40:27 · 1128 阅读 · 0 评论 -
spark SQL 参数调优
1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行小规模的查询的时候反而会变慢,就是说直接用查询反而比将它编译成为java的二进制代码快。所以在优化这个选项的时候要视情况而定。2 spark.sql.inMemoryColumnStorage...原创 2018-06-29 15:37:09 · 10096 阅读 · 0 评论 -
Spark-Streaming 整合 Kafka Integration Guide设置说明
创建streaming+kafka数据源:官方链接public static void main(String[] args) { jssc = SparkUtil.initContext(); //kafka参数设置 Map<String, Object> kafkaParams = new HashMap<>();...原创 2018-12-02 14:51:07 · 328 阅读 · 0 评论