hadoop
然月枕流君
睡觉,动漫~宅男
展开
-
flume日志抓取设计
近期实在没有什么可写的了, docker遇到很多的坑, 只能先写一点其他的东西, flume用的公司很多, 不过一般成熟的一二线的公司基本是很少使用, 他的性能和网络传输一直是有提升空间的, 对于我们这些小公司出身的人,曾经还是靠他混饭吃的. 设计是两年前的实现, 现在觉得很多不是很合理的地方,特别是在分流的设计上,不过flume的传输占带宽的问题也一直没有解决,曾经对flume做了部分优化,写原创 2015-10-21 20:34:24 · 17250 阅读 · 3 评论 -
oozie action配置retry-max失效
本Markdown编辑器使用[StackEdit][6]修改而来,用它写博客,将会带来全新的体验哦: 有同事反应,使用oozie编写wf脚本时, 设置retry-max=15(重试次数),并没有生效, 无论设置多少, 都仅仅重试3次.<workflow-app name="AOF_ETL_JSS_WF" xmlns="uri:oozie:workflow:0.4"> <start to="原创 2016-01-17 21:21:49 · 2532 阅读 · 0 评论 -
hive 跨集群迁移
hive跨集群迁移数据工作中相对比较常见的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等.1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/user/risk hdfs://xxx.xxx.xxx.xxx:8020/user/risk-skipcrccheck 因原创 2016-01-20 22:49:24 · 7040 阅读 · 0 评论 -
关于mapreduce的topN的问题
前段时间有位同事的mr在集群上时而通过时而挂掉, 错误是 2015-12-28 11:13:26,013 INFO [main] org.apache.hadoop.mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 1640163582 bytes 2015-12-28 11原创 2016-01-07 23:07:13 · 2654 阅读 · 0 评论 -
orcfile 与 parpuet 的压缩测试
近期使用hive对orc 与 parpuet做了初步的压缩比分析, 通过压缩2.3表数据,得到的结论为: 1. 非压缩的orc/parpuet ,parpuer查询与文件大小,应较好一些. 2. 经过压缩算法: parpuet 的gzip压缩方式的压缩比最小, 达到15% - 25% 3. 写入速度最快的应是orc, 较parpuet快了将近1.5倍. 后续会对原创 2015-12-26 22:53:29 · 1744 阅读 · 0 评论