hive
文章平均质量分 74
小鸟123
技术爱好者,技术改变生活
展开
-
hive笔记-----查询数据
一、排序和聚集 hive中的order by能够预期产生完全排序的结果,但这个排序的过程只是使用一个reduce任务来完成的,这个面对大规模的数据集肯定不可行的 因此 sort by出现,它可以为每个reduce任务产生一个排序文件 distribute by 可以控制某个特定行应该到哪个reducer,目的在于进行后续的聚集操作 例如 from record2 select ye原创 2016-05-05 20:55:04 · 525 阅读 · 0 评论 -
hive笔记
一、Hive的配置文件属性设置 hive --config /users/tom/dev/hive-conf 重新定义hive查找hive-site.xml文件的路径,在配置文件中使用HIVE_CONF_DIR选项指定到相应的路径可以有相同的效果,适用于多个集群之间相互切换 hive -hiveconf fs.default.name=localhost -hiveconf mapred原创 2016-05-04 16:32:41 · 433 阅读 · 0 评论 -
hive笔记-----用户定义函数
一、UDF 一个udf必须满足下面两个条件: 1、必须是org.apache.hadoop.hive.ql.exec.UDF的子类 2、必须至少实现了evaluate()方法 在编写了UDF之后,需要在调用之前引入这个UDF打成的jar包 add jar /path/to/hive-examples.jar 还需要为java类取一个别名 create temporary func原创 2016-05-07 15:08:46 · 332 阅读 · 0 评论