Hadoop
文章平均质量分 87
b1198103958
这个作者很懒,什么都没留下…
展开
-
hive中map和reduce优化
注:转载之>>>http://blog.sina.com.cn/s/blog_9f48885501017dua.html map和reduce 个数的设定 (Hive优化)经典 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群转载 2015-08-24 16:07:23 · 498 阅读 · 0 评论 -
在Hadoop2.2.0上运行Wordcount小程序
注:转载之>>>http://blog.itpub.net/21819287/viewspace-1119313/ 1、如果hdfs没有启动,则在haoop主目录下启动: ./sbin/start-dfs.sh ./sbin/start-yarn.sh 2、查看状态,保证有数据节点在运行 ./bin/hdfs dfsadmin -report 看到如下状转载 2015-07-23 10:29:22 · 353 阅读 · 0 评论 -
hive的数据类型和数据模型
注:转载之>>>http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.html 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hiv转载 2015-08-14 11:36:41 · 1450 阅读 · 0 评论 -
Hive QL操作
注:转载之>>>http://blog.sina.com.cn/s/blog_66474b16010182yu.html 一、创建表 [ROW FORMAT DELIMITED]关键字,是用来设置创建的表在加载数据的时候,支持的列分隔符; [STORED AS file_format]关键字是用来设置加载数据的数据类型。Hive本身支持的文件格式只有:Text File,Sequence F转载 2015-08-14 16:40:05 · 331 阅读 · 0 评论 -
hadoop中partition浅析
注:转载之>>>http://www.iteye.com/topic/1133851、http://blog.csdn.net/xw13106209/article/details/6912069和http://www.aboutyun.com/thread-7104-1-1.html Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己转载 2015-07-31 14:08:54 · 5253 阅读 · 0 评论 -
开发运行hadoop的AvgScore程序
整体思路:在eclipse里开发计算学生平均成绩,打成jar包后在Hadoop中运行。 学生成绩纯文本文件如下: we 90 sdf 89 sf 87 sf 90 sdf 78 sdf 67 we 98 注意地方:运行Hadoop程序一定要用root把防火墙关掉:service iptables stop。不然运行会提示PriviledgedActionException异常原创 2015-07-30 14:16:38 · 796 阅读 · 0 评论 -
Hive的安装
Hive是运行在Hadoop上的,因此在之前还必须安装好Hadoop。这儿有版本对应问题,我装的Hadoop2.2.0+Hive1.2.1。 Hive安装: 首先是MYSQL的安装: hive内置数据库是Derby,这是存放元数据的地方,可以指定配置为MySQL。 检查MySQL:查看该操作系统上是否已经安装了mysql数据库: rpm -qa | grep mysql 若有信息则卸载原创 2015-08-12 15:20:55 · 553 阅读 · 0 评论 -
hadoop2.x常用端口及定义方法
注:转载之>>>http://www.zhixing123.cn/ubuntu/40649.htm Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。 这里包含我们使用到的组件:HDFS, YARN, HBase, Hi转载 2015-07-30 14:31:26 · 916 阅读 · 0 评论 -
Hadoop添加和撤销节点
注:转载之>>>http://my.oschina.net/MrMichael/blog/291802#OSC_h1_1和http://www.cnblogs.com/tommyli/p/3418273.html 添加节点 1:准备工作:添加用户并设置无密码登录,设置namenode节点到新节点的无密码连接,并修改所有节点的hosts文件(添加节点IP-hostname映射)转载 2015-08-10 16:54:40 · 693 阅读 · 0 评论 -
hive中map、struct、array的使用
注:转载之>>>http://www.cnblogs.com/end/archive/2013/01/17/2863884.html hive提供了复合数据类型: Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域a Maps(K-V对):访问指定域可以通过["指定域名称"转载 2015-08-18 14:44:38 · 403 阅读 · 0 评论