hive
lazythinker
lazythinker的思考或许能引起你的共鸣。10多年IT互联网从业经验,6年电子商务行业经验,5年项目管理经验,4年人力管理经验,长于系统及业务分析、爱好架构设计、乐于助人成长。现从事数据分析及推荐系统相关工作主要使用hadoop、mahout、hive、flume等
展开
-
HIVE中内连接和左半连接不一致问题
一、理论 HIVE中都是按等值连接来统计的,理论上两种写法统计结果应该是一致的; 二、实际情况 但实际使用中发现两种写法会返回的结果,总会有一些差距虽然差别不大,但让人很是困惑。 三、原因 当使用join on的时候,如果右表有重复数据就会关联更多的数据,因为它们都符合join on上的条件; 而使用left semi join的时候,当join左侧表中的记录在join右侧表上查询原创 2013-04-19 15:46:26 · 3834 阅读 · 0 评论 -
Hadoop 任务运行中 java.net.ConnectException: to 0.0.0.0:10020 failed
10020 failed java.lang.OutOfMemoryError GC overhead limit exceeded Java heap space原创 2016-07-29 13:55:16 · 12328 阅读 · 0 评论 -
HIVE 语句执行 中报错:Java heap space
1、报错信息 ask with the most failures(4): ----- Task ID: task_1472873234260_9322_m_000004 URL: http://hadoop-namenode1:8088/taskdetails.jsp?jobid=job_1472873234260_9322&tipid=task_1472873234原创 2016-10-20 14:17:07 · 10788 阅读 · 1 评论 -
HIVE参数调优(汇总)
//设置自动mapjoin 为false set hive.auto.convert.join=false; set hive.ignore.mapjoin.hint=false//关闭严格模式 set hive.exec.dynamic.partition.mode=nonstrict; set hive.mapred.mode=nonstrict;原创 2017-07-20 10:51:04 · 2594 阅读 · 0 评论 -
Hive 添加第三方包的方式
1、Add jar 对当前shell有效,简单明了;2、hive-env.sh HIVE.AUX.JARS.PATH对服务器无效,仅对当前hive shell有效,不同的hive shell相互不影响,每个hive shell都需要配置,可以配置成文件夹形式。 注意:1,根据hive启动脚本,此属性应该也只支持file://也就是本地文件,暂不支持HDFS,没有做验证。2,此配置可...原创 2018-04-10 11:25:31 · 3494 阅读 · 0 评论