Hive
技术蚂蚁
这个作者很懒,什么都没留下…
展开
-
centos6.5安装Hive和mysq
一,安装mysql:1)yum(unbantu下命令:sudo apt-get ) install mysql-server2}ind / -name "mysql" ;3} mysql配置文件/etc/my.cnf中加入default-character-set=utf84) service mysqld start5)mysqladmin -u root p原创 2016-09-10 15:33:01 · 1391 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order byHive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有转载 2016-12-02 22:44:04 · 420 阅读 · 0 评论 -
hive 分组+组内排序 , 求topN
================================新的实例 更好理解数据:四列的表,第一列id,第二列渠道,第三列系统,第四类访问日期0: jdbc:hive2://hadoop009.dx.momo.com:2181,ha> select * from dc_dev.tmp_row_num;tmp_row_num.muid tmp_row_num.channel转载 2016-12-02 22:40:27 · 1091 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join转载 2016-11-30 19:26:15 · 314 阅读 · 0 评论 -
hadoop日志分析系统
环境:centos7+hadoop2.5.2+hive1.2.1+mysql5.6.22+indigo service 2思路:hive加载日志→Hadoop分布式执行→需求数据进入MySQL注意:hadoop日志分析系统网上资料很多,但是大多都有写小问题,无法顺利运行,但本文中都是经过亲自验证的,可以一气呵成。另外还包括可能遇到的异常的详细解释及相关解决方案。1) 日志格转载 2016-11-28 20:51:44 · 2753 阅读 · 0 评论 -
从SQL到HiveQL应改变的几个习惯
HiveQL非常像SQL,但二者并非等价,若不注意期间的一些差异,容易导致HiveQL的语义错误,或降低运行效率等问题。本文将逐步汇集HiveQL应用中发现的差异,整理与此以便查阅。更多HiveQL的语法知识见http://wiki.apache.org/Hadoop/Hive/LanguageManual1,别名SQL中对列取别名,可如下应用:SELECT user_type转载 2016-11-08 20:43:06 · 336 阅读 · 0 评论 -
自定义-Hive自定义函数
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。Hive目前只支持用java语言书写自定义函数。如果需要采用其他语言,比如Python,可以考虑上一节提到的transform语法来实现。Hive支持三种自定义函数,我们逐个讲解。UDF这是普通的用户自定义函数。接受单行输入,并产生单行输出。转载 2016-09-19 21:09:24 · 324 阅读 · 0 评论 -
spark jar包方式运行hive步骤
1,用maven install 打包2,配置好下面的脚本,其中--driver-class-path要选择mysql的jar包所在的目录,另外有博客说可以在spark-env指定export SPARK_CLASSPATH=$SPARK_HOME/lib/mysql-connector-java-5.0.8-bin.jar,注意配置了--driver-class-path 就不能再配原创 2016-08-23 21:27:37 · 2742 阅读 · 0 评论 -
Hive教程之metastore的三种模式
原文地址:http://blog.csdn.net/baolibin528/article/details/46710025Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程转载 2016-08-20 18:36:55 · 1041 阅读 · 0 评论 -
优化-hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2016-08-21 07:59:43 · 1901 阅读 · 0 评论 -
Hive JOIN使用详解
原文连接:http://blog.csdn.net/baolibin528/article/details/46278677Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的转载 2016-08-20 18:42:07 · 322 阅读 · 0 评论 -
面试题—理清hive应用思路
Hive面试题—理清hive应用思路问题:有一张很大的表:TRLOG该表大概有2T左右。[sql] view plaincopyTRLOG: CREATE TABLE TRLOG (PLATFORM string, USER_ID int, CLICK_TIME string, CLICK_URL string)转载 2016-08-20 18:12:04 · 761 阅读 · 0 评论 -
hive数据倾斜原因和解决方法
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2016-12-02 22:45:53 · 1797 阅读 · 0 评论