Hadoop
文章平均质量分 80
colin_yjz
从事大数据研发工作
展开
-
hadoop序列化
神木叫做序列化?将结构化对象转化为字节流方便在网络传输或者持久化到磁盘中的过程。反序列化就是将字节流转化回结构化对象。hadoop中如何使用序列化?系统中各个节点通过RPC实现通信,RPC协议将消息序列化为二进制流,然后传递到远程节点,远程节点通过反序列化将二进制流转化为原始信息。hadoop使用自己的序列化格式Writable,这个接口定义了两个方法:public i原创 2015-06-18 07:58:23 · 672 阅读 · 0 评论 -
hive学习笔记-表操作
Hive数据类型基本数据类型tinyint,smallint,int,biging,float,double,decimal,char,varchar,string,binary,boolean,timestamp,date,引用数据类型Array:相同数据类型组合的数组,使用array[1]访问MAP:Key-value键值对,通过键进行访问,使用map['key']访问原创 2015-08-17 19:12:54 · 795 阅读 · 0 评论 -
hive学习笔记-高级查询
聚合函数count计数count(*):不全都是NULL,就加1;count(1):当只要有一列是NULL就不会加1;count(col):当col列不为空就会加1sum求和sum(可转成数字的值)返回bigint,比如求和后加1,1必须转化成为bigint类型,sum(col)+cast(1 as bigint)avg求平均值avg(可转化成数字的值)返回double原创 2015-08-24 08:24:20 · 2788 阅读 · 0 评论 -
MapReduce计数器
计数器输出运行完毕作业之后的计数器输出内置计数器hadoop为每个作业提供了若干内置计数器,用以描述各项指标。文件系统计数器所属类:org.apache.hadoop.mapreduce.FileSystemCounterBYTES_READ:文件系统读取的字节数BYTES_WRITTEN:文件系统写的字节数FileInputFormat任务计数器原创 2015-06-28 10:31:53 · 3750 阅读 · 2 评论 -
MapReduce的类型与格式
MapReduce类型map函数和reduce函数常规格式:map:(k1,v1)—>list(k2,v2)reduce:(k2,list(v2))—>list(k3,v3)如果含有combiner函数map:(k1,v1)—>list(k2,v2)combiner:(k2,list(v2))—>list(k2,v2)reduce:(k2,list(v2))—>list原创 2015-06-27 09:04:14 · 2082 阅读 · 0 评论 -
shuffle和排序
shuffle属于不断被优化和改进的代码库,是MapReduce的“心脏”。shuffle可以将其定义为:map的输出到reduce的输入(在一些语境中,代表reduce接受map输出的这部分)map端我们知道map产生的输出是临时写到本地磁盘的,但是他并不是简单的写到本地磁盘中,这个过程更为复杂,如图:他会首先使用缓冲的方式写入到内存中,并且处于效率的考虑进行预排序。每个原创 2015-06-25 20:29:19 · 1966 阅读 · 0 评论 -
MapReduce中作业调度器
Hadoop中作业调度器有三种,分别是先进先出调度器(FIFO)、公平调度器(Fair Scheduler)、容量调度器(Capacity Scheduler),默认是FIFO调度器。先进先出调度器(FIFO)按照作业提交的顺序运行作业,每个作业都会使用整个集群,因此作业必须等待直到轮到自己运行。这时,如果共享集群资源就有可能为多用户提供大量的资源,但是又如何分配资源以达到最后情况呢。这时原创 2015-06-25 19:13:03 · 2839 阅读 · 0 评论 -
MapReduce1和YARN(MapReduce2)运行机制
在hadoop1.x中,通过设置mapred.job.tracker来决定执行mapreduce机制,如果设置为local,则使用本地的作业运行器,如果设置为主机和端口号,则这个地址被解析为一个jobtracker地址,运行器则将作业提交给jobtracker。在hadoop2.x中,mapreduce运行在YARN上,通过mapreduce.framework.name属性设置,local表原创 2015-06-25 18:37:09 · 3997 阅读 · 2 评论 -
hadoop2.2.0源码编译
hadoop2.x是使用maven构建的,所以首先下载maven1、下载maven maven.apache.org我选择的是apache-maven-3.0.5(貌似3.1不行)解压缩: tar -zxvf apache-maven-3.0.5配置环境变量:vim /etc/profile MAVEN_HOME=/ho原创 2015-06-23 16:54:45 · 544 阅读 · 0 评论 -
YARN系统官方文档翻译
首先翻译的确实是水,毕竟四级都没有过。翻译原因只为学习,不惜勿喷,谢谢Apache Hadoop NextGen MapReduce (YARN)Apache Hadoop下一代MapReduce(YARN系统)MapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what翻译 2015-06-22 09:19:40 · 666 阅读 · 0 评论 -
hive学习笔记-数据操作
hive数据操作hive命令行操作hive -d --define 定义一个key-value可以在命令行中使用hive -d database 指定使用的数据库hive -e “hql” 不需要进入cli执行hql语句,可以在脚本中使用hive -f fileName 将hql放到一个file文件中执行,sql语句来自file文件hive -h hos原创 2015-08-21 19:42:25 · 1465 阅读 · 0 评论