- 博客(5)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
转载 hive多分隔符问题
源博客地址:http://blog.csdn.net/sunlei1980/article/details/46602445问题描述: 大数据维稳需求中,客户提供的测试数据为多个字符做分隔符('|#'),在pig中会直接报错,hive中只认第一个分隔符。由于数据量比较大(160G),在文本中替换成单个字符分隔符已不现实,以下提供两个方案解决这一问题。
2017-05-26 16:32:25 1260
转载 Hive中order by,sort by,distribute by,cluster by
源博客地址:http://blog.csdn.net/lzm1340458776/article/details/43306115一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Or
2017-05-15 14:23:01 299
转载 flume监控spoolDir日志到HDFS(从日志产生到hdfs上一整套)
原博客地址:http://www.2cto.com/kf/201612/555835.html1.编写java代码,随机生成用户ID号码,区县号码,乡镇号码(区县和乡镇号码用随机的三位字母表示)和个人总收入格式样例:779362a1-bf04-468a-91b6-a19d772f41fa####AFC####sfe####8091748。2.用一个线程循环执行,用Thr
2017-05-05 11:07:49 2587
转载 flume详解
原博客地址:http://blog.csdn.net/w412692660/article/details/49308921Flume依赖关系:JDK :Flume源码程序是由Java平台编制而成,故此对JDK有强制依赖。HDFS :flume监听日志文件变化,将日志程序写入存储介质HDFSHbase:与HDFS同属存储介质,用于实时查询,flume可藉由zooke
2017-05-05 11:00:23 1837
转载 StringTokenizer的介绍以及简单的使用demo
转载原博客地址:http://blog.sina.com.cn/s/blog_8830b3ed0100y9m7.html转载博客地址:http://blog.csdn.net/riyunzhu/article/details/7989145StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数public StringTo
2017-05-03 16:01:50 244
在线等大神,研究生老师未能解决
2015-08-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人