hive入门篇
文章平均质量分 77
luyee2010
这个作者很懒,什么都没留下…
展开
-
hive与mysql安装配置
一,安装MySQL sudo apt-get install mysql-server 可能还要 sudo apt-get install mysq 首先用root登陆给hive用户赋予权限 $mysql -u root -p111111 mysql> GRANT ALL PRIVILEGES ON *.* TO hive@localhost IDENTIFIED BY "hi原创 2013-01-04 22:56:47 · 13489 阅读 · 3 评论 -
facebook presto安装与配置 CDH4.4
presto http://www.dw4e.com/?p=141 http://blog.csdn.net/u012417026/article/details/14516631 conf hadoop@yard02:~/bigdata/presto-server-0.52/$ tar zxvf presto-server-0.52.tar.gz hadoop@yard02:~/bi原创 2013-11-20 20:06:48 · 7304 阅读 · 2 评论 -
hive group by
group by 操作: 1,Map端聚合:Map端进行部分聚合 hive.map.aggr用于设定是否在Map端进行聚合,默认hive.map.aggr=true,version:0.10.0 另外,hive.groupby.mapaggr.checkinterval=100000用于设定Map端进行聚合的操作条目 2,数据倾斜: hive.groupby.skewdata设定是否在数原创 2013-07-23 21:26:38 · 4280 阅读 · 0 评论 -
hive Sortby/Order by/Cluster By/Distribute By 操作 通过学生-课程关系表熟悉hive语句
首先是数据: student.txt: 95001,AA,F,20,CS 95002,BB,M,19,IS 95003,CC,M,22,MA 95004,DD,F,19,IS 95005,EE,F,18,MA 95006,FF,F,23,CS 95007,GG,M,19,MA 95008,HH,M,18,CS 95009,II,M,18,MA 95010,JJ,F,19,CS 95011,KK原创 2013-07-23 20:50:41 · 4323 阅读 · 0 评论 -
hive 参数配置
1,hive.exec.parallel参数: 功能:同一个sql中的不同的job是否可以同时运行 默认为false:原创 2013-07-17 21:31:02 · 3560 阅读 · 0 评论 -
hive join explain
数据: 1,join 2,left outer join select * from tb1 left outer join tb2 on tb1.num=tb2.num; hive> select * from tb1 left outer join tb2 on tb1.num=tb2.num > ; Total MapReduce jobs = 1 Launchi原创 2013-07-17 19:44:12 · 2022 阅读 · 0 评论 -
HIVE学习笔记
hive> desc mytest; OK num int name string Time taken: 0.087 seconds hive> select * from mytest; OK NULL NULL 22 world 33 hive hive> select * from mytest a join mytest原创 2013-04-09 03:03:55 · 1981 阅读 · 0 评论 -
Java HIVE 使用Jdbc连接Hive
1,使用Jdbc方式链接hive,首先需要启动hive的Thrift Server,否则会导致错误 hive --service hiveserver 是两”-“, Could not establish connection to localhost:10000/default: java.net.ConnectException: Connection refused 2,简单的原创 2013-04-10 19:33:12 · 5304 阅读 · 0 评论 -
hadoop工程师要求
记录下:感觉才有点学习方向 Hadoop/Hive开发工程师(15K-30K) 工作地点:上海、杭州、深圳、北京 岗位职责: 1. 预研、开发、测试hdfs/mapreduce/hive/hbase的功能、性能和扩展; 2. 对有助于提升集群处理能力/高可用性/高扩展性的各种解决方案进行跟踪和落地; 3. 解决海量数据不断增长面临的挑战,解决业务需求。原创 2013-01-07 14:39:09 · 3522 阅读 · 0 评论 -
Hive UDF与UDAF
Hive UDF开发 http://richiehu.blog.51cto.com/2093113/386112 Hive UDAF开发 http://richiehu.blog.51cto.com/2093113/386113转载 2013-02-26 02:40:14 · 1125 阅读 · 0 评论 -
从SQL到HiveQL应改变的几个习惯
HiveQL:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 引言 HiveQL非常像SQL,但二者并非等价,若不注意期间的一些差异,容易导致HiveQL的语义错误,或降低运行效率等问题。本文将逐步汇集HiveQL应用中发现的差异,整理与此以便查阅。更多HiveQL的语法知识见http://wiki.apach转载 2013-02-26 01:52:17 · 3182 阅读 · 0 评论 -
Hadoop Pig、Hive 自定义输入输出分隔符
PIG中输入输出分隔符默认是制表符\t,而到了hive中,默认变成了八进制的\001, 也就是ASCII: ctrl - A Oct Dec Hex ASCII_Char 001 1 01 SOH (start of heading) 官方的解释说是尽量不和文中的字符重复,因此选用了 crtrl - A,单个的字符可以通过 row form转载 2013-02-25 02:40:51 · 9709 阅读 · 0 评论 -
Pig、Hive 解决分组 TopK 问题
本文参考链接:http://my.oschina.net/leejun2005/blog/85187 他的有关hadoop/pig/hive/hbase的其他文章:http://my.oschina.net/leejun2005/blog?catalog=186187 问题: 有如下数据文件 city.txt (id, city, value) cat city.txt 1转载 2013-02-25 02:54:25 · 1686 阅读 · 0 评论 -
hive优化总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m 2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.metastore.warehouse.dir value >/user/hive/warehouse descript转载 2013-01-24 21:06:28 · 4283 阅读 · 0 评论 -
Join Optimization in Apache Hive
Join Optimization in Apache Hive 由 Liyin Tang 于 2010年12月15日下午 12:04 发布 With more than 500 million users sharing a billion pieces of content daily, Facebook stores a vast amount of data, and ne转载 2014-07-18 12:54:37 · 2060 阅读 · 0 评论