2015年11月_breeze_lsw

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创磁盘IO对spark的影响

红框圈起来的是3块硬盘的机器，其余的是单硬盘的机器。可以看到在3硬盘的机器的处理速度是单硬盘机器的2-3倍。同时shuffle的性能也有很大提高为了数据的本地性(减少网络io)，hdfs与spark往往都是在一个集群中。磁盘io不足还会影响到hdfs的读取与结果的存放。导致cpu长期等待浪费计算性能。当磁盘io成为程序瓶颈的解决方法：1.使用多块硬盘（最简单有效）,可以使用ssd存放部分spa

2015-11-26 14:34:12 4245

原创 spark 1.5.x Unable to acquire 33554432 bytes of memory

java.io.IOException: Unable to acquire 33554432 bytes of memory修改spark.sql.tungsten.enabled false 在1.6进行修复https://issues.apache.org/jira/browse/SPARK-10309#userconsent#

2015-11-25 21:51:24 5416

原创 pyspark 使用 Ipython

如果使用原生的pyspark,提示简陋，不小心敲错害不能回退，体验非常糟糕。如下：$SPARK_HOME/bin/pyspark 在client的spark-env中添加配置：export IPYTHON=1 export IPYTHON_OPTS=" "再次使用，已经是ipython的$SPARK_HOME/bin/pyspark

2015-11-20 23:08:38 2829

原创 Spark Dynamic Allocation 分析

动态资源调配这是spark1.5以后新加入的功能为standalone模式和mesos的粗粒度模式提供了executor的动态管理，具体表现为：如果executor在一段时间内空闲就会移除这个executor。配置conf/spark-default.conf中配置spark.dynamicAllocation.enabled true spark.shuffle.service.enabled t

2015-11-17 16:02:24 12183

原创 scala 并行集合在spark中的应用

一.scala并行集合现在有一个集合，对它的每个元素进行处理，比如: val arr = List[String]("a","b","c") arr.foreach(println(_)) //输出结果： a b c//并行集合 arr.par.foreach(println(_)) //输出结果: a c b观察线程 println((0 to 1000).map{r

2015-11-12 00:40:21 5439

原创 spark jdbc(mysql) 读取并发度优化

新博客文章地址下文以 mysql 为例在spark中使用jdbc在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-connector-java-5.1.34.jar 任务提交时加入:--jars /path/mysql-connector-java-5.1.34.jar 1. 单partition(无并发)调用函数def jdbc(url

2015-11-11 23:36:39 17531 2

原创 scala使用redis client - Jedis

scala也有很多redis的client,不过在使用Redis集群模式的时候总是报错，只好用回java版本的client了。报错如下java.lang.Exception: MOVED 1133 192.168.6.53:6379 代码package cn.www.daoimport java.utilimport org.apache.spark.Loggingimport cn.www.dao

2015-11-02 21:04:50 11282

spark_prometheus_metrics.json

博客https://blog.csdn.net/lsshlsw/article/details/82670508 spark_prometheus_metrics.json

2018-09-13

scala for spark

因为spark是用scala编写的，这里做了点总结，方便看spark源码。

2014-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人