- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 hive动态分区与静态分区
HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要把这个路径下的数据取出来就可以了,不用扫描全部的数据。HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区,比如商品
2012-10-24 11:52:06 3899 1
豆瓣备份工具
所有的东西都在配置文件里,主要包括:
accesstoken:这个初始为空,需要通过oauth认证之后才能得到
accesstokensecret:同上
apikey: 豆瓣API的api key。我的是0e9de689fedd51532bd9b39dfc97f3f9,也可以自己申请一个,然后填自己的。
apisecret: 豆瓣API的secret。我的是379697627fa46e08,也可以自己申请一个,然后填自己的。
username:如果在公司局域网内有代理,需要填这个。通常是域帐户名(或你电脑的登录名,如果你的电脑是连到域里的)。如果没用代理就填空。
password:域帐户的登录密码,如果没用代理就填空。
domain:登录域,如果没用代理就填空。
proxyserver:代理服务器。注意不需要http://前缀。直接例如:proxyserver.dangdang.com,即可。如果没用代理就填空。
port:代理端口,如果没用代理就填0。
userid:豆瓣的用户ID。如e.neverme或1341234567。
这些都填了之后,点“备份”就行啦。由于豆瓣API的限制,每分钟只能请求40次,所以其实每做一个请求,程序都会sleep几秒(不然就被封了)。如果你的东西非常多,那可能需要一些时间。
目前已知的问题是豆邮只有标题没有内容,我说没有备份。其他应该都还好。
2013-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人