2017年11月_breeze_lsw

11月 10月 09月 07月 05月 02月

原创 HDFS 开启 SCR 对 Hbase 的性能提升

HDFS short circuit local readHDFS client 和 HDFS datanode 通过 TCP socket 进行通信，client 发起请求，datanode读取数据，通过RPC将数据传给 client 。如果client 和数据在同一个节点上，那么通过 datanode 就会增加额外的开销。在这种场景下，HDFS提供了一个 local read 的机制，让 c

2017-11-23 23:40:28 730

原创 pypy on PySpark

什么是pypy 简单的说，pypy 基于jit静态编译，相比cpython 动态解释执行，因此执行速度上会更高效，同时减少了内存使用。 http://pypy.org对三方包的支持一直是pypy的软肋，特别是一些科学计算包，不过在最新的 pypy5.9 中终于对Pandas和NumPy提供了支持。一个简单的例子: test1:import time t = time.time() i = 0

2017-11-15 00:50:09 1395

原创 hdfs du -sk 导致机器load高

hdfs 会定期（默认10分钟）使用 du -sk 命令统计BP的大小，在大硬盘机器上该操作耗时将会很长（可能超过10分钟）。这会导致 iowait 以及 load的提升。例如：社区为了解决这个问题，主要在两个方面进行了改造： https://issues.apache.org/jira/browse/HADOOP-9884 使用 df 命令替换 du 允许用户自定义检查间隔时间问题虽然被

2017-11-10 08:41:41 1759

spark_prometheus_metrics.json

博客https://blog.csdn.net/lsshlsw/article/details/82670508 spark_prometheus_metrics.json

2018-09-13

scala for spark

因为spark是用scala编写的，这里做了点总结，方便看spark源码。

2014-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人