Hadoop/Hive
文章平均质量分 66
Tony_老七
探索数据的路上
展开
-
MongoDB与Hadoop技术栈的整合应用
如何在Hadoop技术栈之上,构建基于NoSQL数据库MongoDB的数据应用.原创 2016-06-12 19:31:35 · 8483 阅读 · 6 评论 -
Hadoop在线水平增加删除datanode
本文讨论的是如何在线水平地增加、删除Hadoop节点原创 2016-03-26 14:42:13 · 1079 阅读 · 1 评论 -
用户日志的收集传输存储架构设计讨论
用户行为日志的收集传输存储架构设计讨论原创 2015-02-12 16:46:56 · 2050 阅读 · 1 评论 -
Tarball安装CDH5.2.1(一)--基础服务HDFS/MR2/YARN
搭建CDH5.2.1基础服务原创 2015-01-04 11:33:57 · 1683 阅读 · 0 评论 -
HiveSQL工程化调用方案
HiveSQL工程化调用方案原创 2014-10-17 11:34:46 · 695 阅读 · 0 评论 -
HiveOptimization--Reduce进程缓慢问题
最近对线上一个执行频率为半小时的任务进行优化,需要在每半个小时的前二十分钟内完成,但是因为前置大概需要执行7/8/9min,所以该job必须在10min内执行完成。 目前发现需要进行优化的较多出现在出现join、distinct的情况下,而且一般都是reduce过程较慢。 Reduce过程比较慢的现象又可以分为两类:情形一:map已经达到100%,而reduce阶段一直原创 2014-05-26 19:17:54 · 6819 阅读 · 0 评论 -
如何对Hive UDF进行使用线上数据达到回归测试
转至元转至元数据起始本地功能测试UDF的测试应当尽量使用Junit/TestNG进行测试,Keep the bar green to keep your code clean.每次开发后为了保持代码的兼容,需要保留original test case,在进入测试阶段后,需要进行以下步骤:那么如何使用线上的数据进行贴源测试呢?原创 2014-10-16 18:54:45 · 1572 阅读 · 0 评论 -
Hive使用动态分区问题
过多的动态分区会导致job出现以下情况:org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/hive-mai原创 2014-11-18 18:44:11 · 1396 阅读 · 0 评论 -
HIVE使用CTAS出现void类型字段报错
最近使用hive CTAS语法时候遇到一个语义级的异常,Hive版本0.13操作如下:create table temp.ldc_test_basselectcase when length(regexp_extract(event_obj_name,'^([A-Za-z_]+)([0-9]+)$',1))=0 then event_obj_name else regexp原创 2014-11-18 18:36:02 · 4476 阅读 · 1 评论 -
Yarn中使用FairScheduler进行任务调度
Yarn提供可插拔的调度的算法,用于解决application之间资源竞争问题. 根据当前多租户多应用类型的应用场景,我们使用FairSchedule资源调度算法,来管理我们用户提交的队列、队列资源竞争.原创 2016-08-23 19:06:00 · 5007 阅读 · 0 评论