什么是大数据

最新推荐文章于 2021-12-24 09:21:39 发布

龙技术

最新推荐文章于 2021-12-24 09:21:39 发布

阅读量70

点赞数

分类专栏：大数据hadoop 文章标签： big data hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ljh18885466426/article/details/120765311

版权

大数据hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大数据

什么是大数据

海量数据文件 mysql 缓存数据

怎么进行大数据处理 hadoop

数据怎么存储 hadoop中的HDFS
数据怎么计算（增删改查）hadoop中的MR

大数据特点

Volume：数据量大，包括采集、存储和计算的量都非常大；

Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据；

Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵；

Velocity：数据增长速度快，处理速度也快，时效性要求高；

Veracity：数据的准确性和可信赖度，即数据的质量。

大数据的方向

etl（采集，清洗，转化，导入）数据仓库 hadoop的数据存储和计算

数据采集：埋点，爬虫

数据清洗：去除空数据或重复数据

数据转化：转化为对应的存储形式

数据存储：excle，mysql，hadoop

数据分析：

数据展示：BI

拓展

离线计算

hadoop mr

近实时计算

spark

实时计算

flink

分布式技术

数仓工具大部分都采用分布式技术

将应用或程序分别安装部署在不同的服务器上统一对外提供服务

应用分布式
存储分布式
计算分布式

集群

对外提供多个相同服务

zookeeper

分布式协调服务

在数仓领域的场景协调hadoop服务实现高可用

zookeeper特性

一致性
可靠性
顺序性
原子性
实时性

zookeeper机器节点—多个zookeeper服务之间的角色划分

leader–领导者角色负责管理维护多个zookeeper服务，leader基于内部算法选举产生，超过一般的服务同意则该服务就作为leader服务对外提供zk服务，leader主要处理事务请求（保存，更新，删除）
follower–跟随者角色处理获取数据请求，定时将当前状态告知给leader（心跳机制），参与选举过程
observer–观察者角色处理查询请求，不参选举过程

zookeeper数据节点—zookeeper存储数据时的数据模型

永久节点
顺序永久节点
临时节点
顺序临时节点

zookeeper配置

下载安装包、解压

tar -zxvf zookeeper-3.4.6.tar.gz
mv zookeeper-3.4.6 zookeeper

修改环境变量，可选操作

vi /etc/profile
export ZOOKEEPER_HOME=/export/server/zookeeper
export PATH= $P A T H :$ ZOOKEEPER_HOME/bin

source /etc/profile

修改Zookeeper配置文件

cd zookeeper/conf
mv zoo_sample.cfg zoo.cfg

vi zoo.cfg
添加内容：
dataDir=/export/data/zkdata

最后一行添加

server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

添加每个节点zk服务编号myid

创建文件夹：

mkdir -p /export/data/zkdata

在data文件夹下新建myid文件，myid的文件内容为对应服务器编号：

echo 1 > /export/data/zkdata/myid

分发安装包到其他机器

cd /export/server

scp -r zookeeper/ root@node2: $P W D s c p - r z o o k e e p e r / r o o t @ n o d e 3 :$ PWD

修改其他机器的配置文件

修改myid文件
mkdir -p /export/data/zkdata
echo 2 > /export/data/zkdata/myid

mkdir -p /export/data/zkdata
echo 3 > /export/data/zkdata/myid

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
什么是大数据

大数据什么是大数据海量数据文件 mysql 缓存数据怎么进行大数据处理 hadoop数据怎么存储 hadoop中的HDFS数据怎么计算（增删改查）hadoop中的MR大数据特点Volume：数据量大，包括采集、存储和计算的量都非常大；Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据；Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵；Velocity：数据增长速度快，处理速度也快，时效性要求高；Veracity：数据的准确性和可信赖度，即数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。