- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 磁盘IO对spark的影响
红框圈起来的是3块硬盘的机器,其余的是单硬盘的机器。可以看到在3硬盘的机器的处理速度是单 硬盘机器的2-3倍。同时shuffle的性能也有很大提高 为了数据的本地性(减少网络io),hdfs与spark往往都是在一个集群中。磁盘io不足还会影响到hdfs的读取与结果的存放。导致cpu长期等待浪费计算性能。当磁盘io成为程序瓶颈的解决方法:1.使用多块硬盘(最简单有效),可以使用ssd存放部分spa
2015-11-26 14:34:12 4245
原创 spark 1.5.x Unable to acquire 33554432 bytes of memory
java.io.IOException: Unable to acquire 33554432 bytes of memory修改spark.sql.tungsten.enabled false 在1.6进行修复https://issues.apache.org/jira/browse/SPARK-10309#userconsent#
2015-11-25 21:51:24 5416
原创 pyspark 使用 Ipython
如果使用原生的pyspark,提示简陋,不小心敲错害不能回退,体验非常糟糕。如下:$SPARK_HOME/bin/pyspark 在client的spark-env中添加配置:export IPYTHON=1 export IPYTHON_OPTS=" "再次使用,已经是ipython的$SPARK_HOME/bin/pyspark
2015-11-20 23:08:38 2829
原创 Spark Dynamic Allocation 分析
动态资源调配这是spark1.5以后新加入的功能为standalone模式和mesos的粗粒度模式提供了executor的动态管理,具体表现为:如果executor在一段时间内空闲就会移除这个executor。配置conf/spark-default.conf中配置spark.dynamicAllocation.enabled true spark.shuffle.service.enabled t
2015-11-17 16:02:24 12183
原创 scala 并行集合在spark中的应用
一.scala并行集合现在有一个集合,对它的每个元素进行处理,比如: val arr = List[String]("a","b","c") arr.foreach(println(_)) //输出结果: a b c//并行集合 arr.par.foreach(println(_)) //输出结果: a c b观察线程 println((0 to 1000).map{r
2015-11-12 00:40:21 5439
原创 spark jdbc(mysql) 读取并发度优化
新博客文章地址下文以 mysql 为例在spark中使用jdbc在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-connector-java-5.1.34.jar 任务提交时加入:--jars /path/mysql-connector-java-5.1.34.jar 1. 单partition(无并发)调用函数def jdbc(url
2015-11-11 23:36:39 17531 2
原创 scala使用redis client - Jedis
scala也有很多redis的client,不过在使用Redis集群模式的时候总是报错,只好用回java版本的client了。报错如下java.lang.Exception: MOVED 1133 192.168.6.53:6379 代码package cn.www.daoimport java.utilimport org.apache.spark.Loggingimport cn.www.dao
2015-11-02 21:04:50 11282
spark_prometheus_metrics.json
2018-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人