- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 HDFS 开启 SCR 对 Hbase 的性能提升
HDFS short circuit local readHDFS client 和 HDFS datanode 通过 TCP socket 进行通信,client 发起请求,datanode读取数据,通过RPC将数据传给 client 。如果client 和 数据在同一个节点上,那么通过 datanode 就会增加额外的开销。在这种场景下,HDFS提供了一个 local read 的机制 ,让 c
2017-11-23 23:40:28 730
原创 pypy on PySpark
什么是pypy 简单的说,pypy 基于jit静态编译,相比cpython 动态解释执行,因此执行速度上会更高效,同时减少了内存使用。 http://pypy.org对三方包的支持一直是pypy的软肋,特别是一些科学计算包,不过在最新的 pypy5.9 中终于对Pandas和NumPy提供了支持。一个简单的例子: test1:import time t = time.time() i = 0
2017-11-15 00:50:09 1395
原创 hdfs du -sk 导致机器load高
hdfs 会定期(默认10分钟)使用 du -sk 命令统计BP的大小,在大硬盘机器上该操作耗时将会很长(可能超过10分钟)。这会导致 iowait 以及 load的提升。 例如: 社区为了解决这个问题,主要在两个方面进行了改造: https://issues.apache.org/jira/browse/HADOOP-9884 使用 df 命令替换 du 允许用户自定义检查间隔时间 问题虽然被
2017-11-10 08:41:41 1759
spark_prometheus_metrics.json
2018-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人