hadoop
我就是400
!!!
展开
-
Hadoop 高级程序设计(一)---复合键 自定义输入类
简介:在大数据处理的基本方法上,对于相互间计算的依赖性不大的数据,mapreduce采用分治的策略进行处理,将大的问题划分成小的问题进行求解,使得问题变得简单可行,同时在处理问题上面,MapReduce框架隐藏了很多的处理细节,将数据切分,任务调度,数据通信,容错,负载均衡.....交给了系统负责,对于很多问题,只需要采取框架的缺省值完成即可,用户只需完成设计map函数很reduce函数即转载 2014-10-06 12:18:23 · 703 阅读 · 0 评论 -
Hadoop相关零散知识点——转自我来了!
Hadoop相关零散知识点目录1、Hadoop三种安装模式2、Hadoop集群--图解3、机架结构图—图解4、Hadoop集群架构——两级网络拓扑 P2615、Hadoop集群节点的拓扑结构图解6、MapReduce数据传输7、jobtracker及一系列tasktracker。8、输入分片9、为什转载 2014-09-29 16:49:46 · 947 阅读 · 0 评论 -
MapReduce的Shuffle过程介绍
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,转载 2015-06-08 11:40:40 · 780 阅读 · 0 评论 -
hive bug
1. hive的insert bug 001,如下:insert overwrite table XXX partition(dt='2016-04-09') asselect '' as a1 from YYY; 如此得到的表XXX有一个字段,但是这个字段的值并非空字符串,也就是('’),而是null。但是使用create select 不会出现。这个bug已经再新版本得到原创 2016-04-09 18:45:48 · 481 阅读 · 0 评论 -
数据仓库-易错点
转自:博客园-liuweiqiang2v最近在搞关于数据分析的项目,做了一点总结。下图是系统的数据流向。容易出现错误的地方。1、数据进入hadoop仓库有四种来源,这四种是最基本的数据,简称ods,original data source,后续 的数据都是有这些组合而来a、日志文件b、http接口c、DB查询d、建表指向最后数据都是以ha转载 2016-09-08 14:36:58 · 708 阅读 · 0 评论