大数据各组件简述

hadoop分布式生态环境:
hdfs分布式文件系统
hive数据仓库工具,形成文件与表的映射,可以使用类sql语言操作数据库
mapreduce分布式计算框架
spark分布式计算框架,减少落盘,作为一个应用在yarn上运行
flume日志采集系统
kafka消息队列,缓冲
zookeeper服务管理-服务器资源和客户端请求的协调
impala基于内存的即席查询工具
kylin多维分析引擎
hbase-非关系型数据库 key-value
solr全文搜索引擎

tez下一代查询处理框架,基于yarn
tez源于mr但不同于mr,将任务细分重组形成一个完整的dag作业落地磁盘,即将多个有依赖的作业转换成一个作业一次性写入hdfs,内存式计算
hive on tez 使用tez作为sql查询计算引擎

kudu 快速变化数据实时分析的数据存储工具
phoentix 关系型数据库,支持oltp,基于hbase
ranger数据安全 管理,监控
sqoop关系型数据库与hdfs,云对象如amazon s3 or adls的数据传输
workload xm 性能管理 作业运行管理
maxwell 轻量级数据抓取工具 满足实时抓取数据的需求(sqoop是离线)

git 代码 仓库管理 文件管理 远程管理 分支管理 标签管理。进阶-开发工具集成访问第三方代码托管平台
分布式版本控制
与svn区别集中式版本控制
clone 使用客户端工具将本地代码文件复制到中央服务器
每个分支做不同的事,互不影响,通过head指向去确认当前仓库中最新的版本,最后合并

presto是开源sql查询引擎秒级查询,不适用与OLTP
zabbix是集群监控工具(资源)
安全:
kerberos用户认证工具-集群访问、数据安全 ,决定哪些角色可以访问,是一种计算机网络认证
ranger是权限管理-决定角色访问的范围-可以精确到字段
atlas元数据管理-依赖hbase+solr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值