自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (2)
  • 收藏
  • 关注

原创 磁盘IO对spark的影响

红框圈起来的是3块硬盘的机器,其余的是单硬盘的机器。可以看到在3硬盘的机器的处理速度是单 硬盘机器的2-3倍。同时shuffle的性能也有很大提高 为了数据的本地性(减少网络io),hdfs与spark往往都是在一个集群中。磁盘io不足还会影响到hdfs的读取与结果的存放。导致cpu长期等待浪费计算性能。当磁盘io成为程序瓶颈的解决方法:1.使用多块硬盘(最简单有效),可以使用ssd存放部分spa

2015-11-26 14:34:12 4245

原创 spark 1.5.x Unable to acquire 33554432 bytes of memory

java.io.IOException: Unable to acquire 33554432 bytes of memory修改spark.sql.tungsten.enabled false 在1.6进行修复https://issues.apache.org/jira/browse/SPARK-10309#userconsent#

2015-11-25 21:51:24 5416

原创 pyspark 使用 Ipython

如果使用原生的pyspark,提示简陋,不小心敲错害不能回退,体验非常糟糕。如下:$SPARK_HOME/bin/pyspark 在client的spark-env中添加配置:export IPYTHON=1 export IPYTHON_OPTS=" "再次使用,已经是ipython的$SPARK_HOME/bin/pyspark

2015-11-20 23:08:38 2829

原创 Spark Dynamic Allocation 分析

动态资源调配这是spark1.5以后新加入的功能为standalone模式和mesos的粗粒度模式提供了executor的动态管理,具体表现为:如果executor在一段时间内空闲就会移除这个executor。配置conf/spark-default.conf中配置spark.dynamicAllocation.enabled true spark.shuffle.service.enabled t

2015-11-17 16:02:24 12183

原创 scala 并行集合在spark中的应用

一.scala并行集合现在有一个集合,对它的每个元素进行处理,比如: val arr = List[String]("a","b","c") arr.foreach(println(_)) //输出结果: a b c//并行集合 arr.par.foreach(println(_)) //输出结果: a c b观察线程 println((0 to 1000).map{r

2015-11-12 00:40:21 5439

原创 spark jdbc(mysql) 读取并发度优化

新博客文章地址下文以 mysql 为例在spark中使用jdbc在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-connector-java-5.1.34.jar 任务提交时加入:--jars /path/mysql-connector-java-5.1.34.jar 1. 单partition(无并发)调用函数def jdbc(url

2015-11-11 23:36:39 17531 2

原创 scala使用redis client - Jedis

scala也有很多redis的client,不过在使用Redis集群模式的时候总是报错,只好用回java版本的client了。报错如下java.lang.Exception: MOVED 1133 192.168.6.53:6379 代码package cn.www.daoimport java.utilimport org.apache.spark.Loggingimport cn.www.dao

2015-11-02 21:04:50 11282

spark_prometheus_metrics.json

博客https://blog.csdn.net/lsshlsw/article/details/82670508 spark_prometheus_metrics.json

2018-09-13

scala for spark

因为spark是用scala编写的,这里做了点总结,方便看spark源码。

2014-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除