仅供参考,欢迎拍砖
3、核心三个框架:hadoop、Hbase、Hive
4、HDFS:分布式管理系统,负责存储
mapReduce:hadoop核心,负责计算
5、结构化数据存放关系型数据库
非结构化数据使用hadoop
sqoop 结构化非结构化数据转换
6、hbase-》OLTP 在线事务处理,hadoop的分布式数据库
7、hive-》数据仓库工具,使得hadoop支持sql
8、mahout-》Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中
9、hadoop是适用于大数据的分布式存储(HDFS)和分布式计算(MapReduce)的平台
10、apache的hadoop开源产品
类比MapReduce
经理:JobTracker
开发人员:TaskTrackers
hadoop特点:
1、多机器同步并行计算,群体作战。
2、数据失败可以重新部署,重新计算。
如上hadoop集群:12台机器,分别在两个机架上,通过3台交换机进行连接。
每个集群中只有一个主节点:JobTacker、Namenode
Hadoop安装过程中扩展学习:
SSH(secure shell) 安全加密通信 类似telnet(telnet是明文)
在配置hadoop分布式安装过程中,需要配置ssh的无密码登录。在组建hadoop集群的时候,需要多台实体机进行通信(发送或者读取数据,namenode和datanode之间)就是借助ssh,在通信过程中如果需要操作人员频繁输入密码是不切实际的,所以需要ssh的无密码登录
配置:
首先请确保防火墙都处于关闭状态,具体命令是ufs disable。并确保安装ssh spenssh-server。
在主机qiuchenl0中执行以下命令:
- cd ~/.ssh (进入用户目录下的隐藏文件.ssh)
- ssh-keygen -t rsa(用rsa生成密钥)
- cp id_rsa.pub authorized_keys (把公钥复制一份,并改名为authorized_keys,这步执行完,应该ssh localhost可以无密码登录本机了,可能第一次要密码)
- scp authorized_keysqiuchenl@qiuchenl1:/home/qiuchenl/.ssh (把重命名后的公钥通过ssh提供的远程复制文件复制到从机qiuchenl1上面)
- chmod 600 authorized_keys(更改公钥的权限,也需要在从机qiuchenl1中执行同样代码)
- ssh qiuchenl1 (可以远程无密码登录qiuchenl1这台机子了,注意是ssh不是sudo ssh。第一次需要密码,以后不再需要密码)
原理: