spark
文章平均质量分 59
姥爷家的小胡同
专注于数据分析
展开
-
spark调优-shuffle调优
基于spark1.6参数可以通过 new sparkContext().set("","")来设置,也可以通过命令的参数设置 --conf spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会...原创 2017-03-16 09:58:27 · 650 阅读 · 0 评论 -
spark调优-持久化策略选择
RDD的持久化策略:cache、persist、checkpoint三种策略(持久化的单位是partition)1、cache是persist的一个简化版,会将rdd中的数据持久化到内存中cache = persists(StorageLevel.MEMORY_ONLY) 不进行序列化特点:1、cache的返回值 必须赋值给一个新的RDD变量原创 2017-03-16 10:01:58 · 1496 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
一DataFrame对象的生成二DataFrame对象上Action操作show展示数据collect获取所有数据到数组collectAsList获取所有数据到Listdescribecols String获取指定字段的统计信息first head take takeAsList获取若干行记录二DataFrame对象上的条件查询和join等操作where转载 2017-09-15 15:00:28 · 704 阅读 · 0 评论 -
Python Spark Streaming任务监控
spark Streaming 监控脚本转载 2017-11-24 15:17:08 · 1284 阅读 · 0 评论