hive
ukakasu
这个作者很懒,什么都没留下…
展开
-
hive、pig对日志处理的对比
原数据:每行记录有5部分组成:1.访问ip2.访问时间3.访问资源4.访问状态5.本次流量数据清洗 hive中的数据需要用mr进行处理,然后再导入表中 public static class MyMapper extends Mapper { S原创 2015-09-12 10:57:23 · 635 阅读 · 0 评论 -
JDBC操作hive
public class HiveJdbcClient { private static String driverName = "org.apache.hive.jdbc.HiveDriver"; private static String url = "jdbc:hive2://192.168.1.182:10000/my"; private static String user =原创 2015-08-11 21:51:42 · 527 阅读 · 0 评论 -
一道hive面试题
该面试题的原文地址:http://blog.csdn.net/zolalad/article/details/10819749#解决思路:根据用户ID算出访问次数,然后根据访问次数算出fromurl和tourl难点主要为计算用户访问次数,原文的计算方法看着有点复杂,于是就简单写了一个import java.util.HashMap;import org.apache原创 2015-08-22 16:55:14 · 1929 阅读 · 0 评论 -
hive小结
hivehive是建立在Hadoop上的数据仓库基础架构,将sql语句转化为MapReduce在Hadoop上执行。hive优化表优化:分区表,防止全表扫描,桶表。sql优化:map端join,where优化(先执行where缩小数据),groupby自动优化job优化:并行执行,本地执行,合并输入、输出小文件,压缩数据。map优化:map端聚合,推测执行red原创 2015-10-24 18:35:57 · 380 阅读 · 0 评论