接上文啊:
|
CPU
|
16* Intel(R) Xeon(R) CPU E5620 @ 2.40GHz |
|---|---|
| MEMORY | 48GB |
| DISK | 12*SATA 2TB |
| NET | 4*1Gb Ethernet |
测试数据:
| 类型 | 国内某视频网站近半年用户访问日志 |
| 结构 | 一行九列,包括用户访问页,关键词及其它用户信息。对应HBase一个family下9个column,一行120到180字节 |
| 数据量 | 每次测试写入10亿条数据,原始数据约110GB,写到HBase中一张不加压缩的表里HDFS中单副本约480GB (dus结果) |
集群结构
| RegionServ |

本文通过详细测试数据对比分析了HBase在不同配置和代码修改下的写入性能,包括原始情况、配置项修改、代码修改以启用多线程flush和compaction,以及启用GZ压缩。结果显示,代码修改和多线程启用显著提升了写入速度,减少了表的大小。启用GZ压缩后,10亿行数据的写入时间增加至3小时5分钟,但表大小压缩至原数据的17%。
最低0.47元/天 解锁文章
579

被折叠的 条评论
为什么被折叠?



