大数据的5V特点:Volume\Volocity\Variety\Value\Veracity
大数据并行化处理数据,Google2004(分而治之),hadoop产生(Doug cutting)
应用场景
典型应用:公司运营情况
CNZZ 数据专家
友盟
电商推荐系统
广告推送系统
什么是hadoop
hadoop项目开发了用于可靠,可扩展的分布式计算的开源软件。
允许使用简单的编程模型跨计算机集群分布式处理大型数据集。
它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。
库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,
从而在计算机集群智商提供高可用性服务,每个计算机都可能容易出现故障。
用户可以在不了解分布式的底层细节而开发分布式程序。
Hadoop中三个核心组件:
分布式文件系统:HDFS ---实现存储在多台服务器上
分布式运算编程框架:MapReduce ---实现在很多台机器的分布式并行计算
分布式资源调度平台:Yarn ---帮我们调度大量的mapreduce程序的,并且合理分配运算资料
HDFS的运行机制
如何实现分布式存储
用户存储数据可能被切块,再去文件的时候不用关心,HDFS解决
namenode:记录块信息,统一管理
datanode:存储数据的程序
总结:机制-》用户的文件会被切块后存储在多台datanode服务器当中,并且每个文件在集群当中存放多个副本,可以自己指定副本数据。
HDFS:对用户统一的目录,存储时会把文件切分为若干个文件块存储,在不同的datanode服务器当中。
用户文件可以存储多个副本,以增强数据的安全性。
用户存储的块信息存储的位置在namenode当中。
集群的准备工作
1、关闭防火墙(进行远程连接)
systemctl stop firewalld
systemctl -disable firewalld
firewall-cmd --state
2、设置主机名(每台机器都需要改)
vi /etc/hostname
//需要重启生效
reboot
//配置映射文件
vi /etc/hosts
ip hostname1
ip hostname2
ip hostname3
scp -r /etc/hosts ip:/etc/ (覆盖)
3、安装jdk
上传tar包
alt+p
解压tar包
配置环境变量
vi /etc/profile
export JAVA_HOME=
export PATH=$PATH:$JAVA_HOME/bin
注:source /etc/profile
scp -r(递归) file ip:dir
注意:加载环境变量
4、免密登录
ssh-keygen
ssh-copy-id hostname1 //自己
ssh-copy-id hostname2 //其他
ssh-copy-id hostname3 //其他