- 博客(5)
- 收藏
- 关注
转载 可伸缩架构常用技术 -- 数据切分
可伸缩性架构常用技术—— 之数据切分(Data Sharding/Partition)1. 简介本来想写一篇可伸缩性架构方面的文章,发现东西太多了,久久未能下笔,这里首先把大家最关注的数据切分(Partition/Sharding)方面的内容先写完,给大家参考。 我们知道,为了应对不断增长的数据,我们对数据进行切分,存储在不同的数据库里,本文提到的数据库
2012-03-21 13:42:35 737
转载 HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写
2012-03-20 21:46:14 4239
原创 如何写hive的udf函数?
最近感受了hive的udf函数的强大威力了,不仅可以使用很多已经有的udf函数,还可以自己定义符合业务场景的udf函数,下面就说一下如何写udf/udaf/udtf函数,算是一个入门介绍吧。First, you need to create a new class that extends UDF, with one or more methods named evaluate.pac
2012-03-16 23:37:46 7738 22
转载 custom map/reduce scripts in hive
First, I have to say that after using Hive for the past couple of weeks and actually writing some real reporting tasks with it, it would be really hard to go back. If you are writing straight hadoop
2012-03-16 16:02:44 1225
原创 Mongodb技术沙龙@admaster
- 使用Mongodb的时候需要考虑的事情:MongoDB关注内存而不是CPU,计算负载不高,理想是所有数据的都能放在内存中退而其次确保内存能把常用数据集都放下(索引+热数据)- replica set + auto-sharding 做好不易,特别注意sharding key的优选,要克服的问题:shard 不均衡,数据波动, 另外做好mongos可靠性的评估,
2012-03-02 11:16:26 1053
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人