什么是大数据

大数据

什么是大数据

海量数据 文件 mysql 缓存数据

怎么进行大数据处理 hadoop

  • 数据怎么存储 hadoop中的HDFS
  • 数据怎么计算 (增删改查)hadoop中的MR

大数据特点

Volume:数据量大,包括采集、存储和计算的量都非常大;

Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;

Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;

Velocity:数据增长速度快,处理速度也快,时效性要求高;

Veracity:数据的准确性和可信赖度,即数据的质量。

大数据的方向

etl(采集,清洗,转化,导入) 数据仓库 hadoop的数据存储和计算

数据采集:埋点,爬虫

数据清洗:去除空数据或重复数据

数据转化:转化为对应的存储形式

数据存储:excle,mysql,hadoop

数据分析:

数据展示:BI

拓展

离线计算

hadoop mr

近实时计算

spark

实时计算

flink

分布式技术

数仓工具大部分都采用分布式技术

将应用或程序分别安装部署在不同的服务器上统一对外提供服务

  • 应用分布式
  • 存储分布式
  • 计算分布式

集群

对外提供多个相同服务

zookeeper

分布式协调服务

在数仓领域的场景 协调hadoop服务实现高可用

zookeeper特性

  • 一致性
  • 可靠性
  • 顺序性
  • 原子性
  • 实时性

zookeeper机器节点—多个zookeeper服务之间的角色划分

  • leader–领导者角色 负责管理维护多个zookeeper服务,leader基于内部算法选举产生,超过一般的服务同意则该服务就作为leader服务对外提供zk服务,leader主要处理事务请求(保存,更新,删除)
  • follower–跟随者角色 处理获取数据请求,定时将当前状态告知给leader(心跳机制),参与选举过程
  • observer–观察者角色 处理查询请求,不参选举过程

zookeeper数据节点—zookeeper存储数据时的数据模型

  • 永久节点
  • 顺序永久节点
  • 临时节点
  • 顺序临时节点

zookeeper配置

下载安装包、解压

tar -zxvf zookeeper-3.4.6.tar.gz
mv zookeeper-3.4.6 zookeeper

修改环境变量,可选操作

vi /etc/profile
export ZOOKEEPER_HOME=/export/server/zookeeper
export PATH= P A T H : PATH: PATH:ZOOKEEPER_HOME/bin

source /etc/profile

修改Zookeeper配置文件

cd zookeeper/conf
mv zoo_sample.cfg zoo.cfg

vi zoo.cfg
添加内容:
dataDir=/export/data/zkdata

最后一行添加

server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

添加每个节点zk服务编号myid

创建文件夹:

mkdir -p /export/data/zkdata

在data文件夹下新建myid文件,myid的文件内容为对应服务器编号:

echo 1 > /export/data/zkdata/myid

分发安装包到其他机器

cd /export/server

scp -r zookeeper/ root@node2: P W D s c p − r z o o k e e p e r / r o o t @ n o d e 3 : PWD scp -r zookeeper/ root@node3: PWDscprzookeeper/root@node3:PWD

修改其他机器的配置文件

修改myid文件
mkdir -p /export/data/zkdata
echo 2 > /export/data/zkdata/myid

mkdir -p /export/data/zkdata
echo 3 > /export/data/zkdata/myid

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值