我的大数据之路（一）

最新推荐文章于 2022-03-28 22:52:42 发布

闲庭细步

最新推荐文章于 2022-03-28 22:52:42 发布

阅读量1.7k

点赞数

分类专栏：大数据文章标签：大数据搜索 web语义

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flashflight/article/details/47010465

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

开始做公司的数据平台了，真心喜欢这个玩意儿。先从基础理论开始学吧，数据挖掘，数据仓库，hadoop，spark。。。

目前市面上的大数据解决方案包括开源的hadoop、微软的sql server、google的新三驾马车caffeine、megastore、gfs系统等。当下国内最炙热的大数据架构非hadoop莫属了。

先放一张hadoop的架构图：

1、zookeeper

注册中心，用来做为服务发现工具

2、hbase

分布式列式数据库，主要用于数据查询，它的所有crud操作都是insert操作，适合大量查询和插入数据的场景。

3、hive

数据仓库，提供了一系列工具，用于提取、转换、加载数据，但不支持更新、索引、事务。同时它还提供sql到mapreduce的转换。

4、pig

数据流语言，可以用它轻松处理大量数据。用于对hbase和hdfs中的数据做转换并提供查询。

5、hdfs

hadoop分布式文件系统，它是和ntfs、fat一样的同一类东西。但它是专门为分布式环境设计的文件系统

6、map reduce

分布式计算框架，在它之上运行的job可以通过人工编写、hive、pig生成，map函数将job拆分成多个job分发到hadoop集群中运行，计算结果传递给reduce函数进行合并并输出结果。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。