hadoop
pftzzg
这个作者很懒,什么都没留下…
展开
-
1-hadoop-1.03单节点的安装
1)确认安装了JDK,没有如下安装 [root@primary ~]# cd /home[root@primary home]# cp jdk-6u31-linux-i586-rpm.bin /usr/local/[root@primary home]# cd /usr/local/[root@primary local]# chmod +x jdk-6u31-linux...原创 2013-07-19 14:20:04 · 135 阅读 · 0 评论 -
10-Oracle大数据OLH连接
参考: http://www.dataguru.cn/forum.php?mod=viewthread&tid=39857 http://blog.sina.com.cn/s/blog_701a48e7010189rc.html http://www.chenjunlu.com/2012/12/trying-with-oracle-loader-for-ha...2013-07-21 13:11:32 · 205 阅读 · 0 评论 -
9-hadoop-0.20 单节点安装
1)安装JAVA2)SSH免密码3)解压hadoop这些安装与 1.03 一样。1.03 的安装,请参照: http://pftzzg.iteye.com/blog/1910153 4)设置 a) [root@centerOsMaster home]# vim /etc/profile export ...2013-07-21 11:45:11 · 91 阅读 · 0 评论 -
5-Data/name/secondaryname/node
简称 Dn 全称 datanode 保存Block 启动DN线程的时候会向NN汇报block信息 通过向NN发送心跳保持与其联系(3秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN 简称Nn 全称 namenode NameNode主要功能提供名称查询服务,它是一个je...原创 2013-07-21 02:03:03 · 116 阅读 · 0 评论 -
8-Hadoop MapReduce数据流
参考: http://www.linuxidc.com/Linux/2012-02/54485.htm Hadoop的核心组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行...原创 2013-07-20 21:27:40 · 99 阅读 · 0 评论 -
7-MapReduce入门
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算 通俗的说就是将一个大任务分成多个小任务并行完成,然后合并小任务的结果,得到最终结果。1)打包注意: 一定要选择一个MAIN,不然不会运行。 2) 3)输出目录是HADOOP自己创建的。如果有这个目录,一定要删除。如下:4)测试命令: java -...原创 2013-07-20 20:04:19 · 110 阅读 · 0 评论 -
6-HDFS文件系统
使用HDFS储存文件优点: 1, 扩展方便,只需要增加datanode就可以立刻获得更大的储存空间和更好的数据访问速度 2,可以提供较高的数据库安全性 3,API接口丰富,方便各种不同的客户端调用 ...原创 2013-07-20 19:25:22 · 62 阅读 · 0 评论 -
4-secondarynamenode
Namenode的工作特点 Namenode始终在内存中保存metedata,用于处理“读请求” 到有“写请求”到来时,namenode会首先写editlog到磁盘,成功返回后,才会修改内存,并且向客户端返回 Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedat...原创 2013-07-20 18:45:12 · 89 阅读 · 0 评论 -
3-hadoop命令
1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /user/ 2、打开某个已存在文件 hadoop dfs –cat [file_path] eg:hadoop dfs -cat /user/data.txt 3、将本地文件存储至hadoop hadoop fs –put [本...原创 2013-07-20 18:08:30 · 209 阅读 · 0 评论 -
2-集群安装
1)准备环境 hostnameip作用 station1192.168.80.51Namenaode jobtracher datanode tasktracher station2192.168.80.52Datanode jobtrac...原创 2013-07-19 14:45:31 · 68 阅读 · 0 评论 -
11_sqoop_oracle_hive 数据交换实验
参考: http://f.dataguru.cn/thread-54454-1-1.htmlhttp://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4/SqoopUserGuide.html 虚拟机环境: redhat 5软件版本: 下面是CDH3和SQOOP 1.2.0的下载地址http://archive....原创 2013-07-28 01:32:11 · 86 阅读 · 0 评论