hive
ukakasu
这个作者很懒,什么都没留下…
展开
-
hive、pig对日志处理的对比
原数据: 每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源 4.访问状态 5.本次流量 数据清洗 hive中的数据需要用mr进行处理,然后再导入表中 public static class MyMapper extends Mapper { S原创 2015-09-12 10:57:23 · 635 阅读 · 0 评论 -
JDBC操作hive
public class HiveJdbcClient { private static String driverName = "org.apache.hive.jdbc.HiveDriver"; private static String url = "jdbc:hive2://192.168.1.182:10000/my"; private static String user =原创 2015-08-11 21:51:42 · 527 阅读 · 0 评论 -
一道hive面试题
该面试题的原文地址:http://blog.csdn.net/zolalad/article/details/10819749# 解决思路:根据用户ID算出访问次数,然后根据访问次数算出fromurl和tourl 难点主要为计算用户访问次数,原文的计算方法看着有点复杂,于是就简单写了一个 import java.util.HashMap; import org.apache原创 2015-08-22 16:55:14 · 1930 阅读 · 0 评论 -
hive小结
hive hive是建立在Hadoop上的数据仓库基础架构,将sql语句转化为MapReduce在Hadoop上执行。 hive优化 表优化:分区表,防止全表扫描,桶表。 sql优化:map端join,where优化(先执行where缩小数据),groupby自动优化 job优化:并行执行,本地执行,合并输入、输出小文件,压缩数据。 map优化:map端聚合,推测执行 red原创 2015-10-24 18:35:57 · 381 阅读 · 0 评论