大数据
什么是大数据
海量数据 文件 mysql 缓存数据
怎么进行大数据处理 hadoop
- 数据怎么存储 hadoop中的HDFS
- 数据怎么计算 (增删改查)hadoop中的MR
大数据特点
Volume:数据量大,包括采集、存储和计算的量都非常大;
Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;
Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;
Velocity:数据增长速度快,处理速度也快,时效性要求高;
Veracity:数据的准确性和可信赖度,即数据的质量。
大数据的方向
etl(采集,清洗,转化,导入) 数据仓库 hadoop的数据存储和计算
数据采集:埋点,爬虫
数据清洗:去除空数据或重复数据
数据转化:转化为对应的存储形式
数据存储:excle,mysql,hadoop
数据分析:
数据展示:BI
拓展
离线计算
hadoop mr
近实时计算
spark
实时计算
flink
分布式技术
数仓工具大部分都采用分布式技术
将应用或程序分别安装部署在不同的服务器上统一对外提供服务
- 应用分布式
- 存储分布式
- 计算分布式
集群
对外提供多个相同服务
zookeeper
分布式协调服务
在数仓领域的场景 协调hadoop服务实现高可用
zookeeper特性
- 一致性
- 可靠性
- 顺序性
- 原子性
- 实时性
zookeeper机器节点—多个zookeeper服务之间的角色划分
- leader–领导者角色 负责管理维护多个zookeeper服务,leader基于内部算法选举产生,超过一般的服务同意则该服务就作为leader服务对外提供zk服务,leader主要处理事务请求(保存,更新,删除)
- follower–跟随者角色 处理获取数据请求,定时将当前状态告知给leader(心跳机制),参与选举过程
- observer–观察者角色 处理查询请求,不参选举过程
zookeeper数据节点—zookeeper存储数据时的数据模型
- 永久节点
- 顺序永久节点
- 临时节点
- 顺序临时节点
zookeeper配置
下载安装包、解压
tar -zxvf zookeeper-3.4.6.tar.gz
mv zookeeper-3.4.6 zookeeper
修改环境变量,可选操作
vi /etc/profile
export ZOOKEEPER_HOME=/export/server/zookeeper
export PATH=
P
A
T
H
:
PATH:
PATH:ZOOKEEPER_HOME/bin
source /etc/profile
修改Zookeeper配置文件
cd zookeeper/conf
mv zoo_sample.cfg zoo.cfg
vi zoo.cfg
添加内容:
dataDir=/export/data/zkdata
最后一行添加
server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888
添加每个节点zk服务编号myid
创建文件夹:
mkdir -p /export/data/zkdata
在data文件夹下新建myid文件,myid的文件内容为对应服务器编号:
echo 1 > /export/data/zkdata/myid
分发安装包到其他机器
cd /export/server
scp -r zookeeper/ root@node2: P W D s c p − r z o o k e e p e r / r o o t @ n o d e 3 : PWD scp -r zookeeper/ root@node3: PWDscp−rzookeeper/root@node3:PWD
修改其他机器的配置文件
修改myid文件
mkdir -p /export/data/zkdata
echo 2 > /export/data/zkdata/myid
mkdir -p /export/data/zkdata
echo 3 > /export/data/zkdata/myid