大数据概述

最新推荐文章于 2024-11-09 16:58:24 发布

醪糟小丸子

最新推荐文章于 2024-11-09 16:58:24 发布

阅读量233

点赞数

分类专栏：大数据文章标签：分布式大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/laozaoxiaowanzi/article/details/112466830

版权

大数据专栏收录该内容

9 篇文章 1 订阅

订阅专栏

大数据基本概念

用新的技术进行海量数据处理

简言之，大数据：

1.有海量的数据

2.有对海量数据进行挖掘的需求

3.有对海量数据进行挖掘的软件工具（Hadoop、spark、storm、flink、tez、impala....）

处理海量数据的核心技术

分布式

—— 海量数据存储、海量数据运算

存储框架

1.HDFS——分布式文件存储系统（Hadoop中的存储框架）

补充：数据库系统就是在文件系统上封装一层

2.HBase——分布式数据库系统

3.KAFKA——分布式消息缓存系统（消息有固定的格式）

补充：KAFKA应用在实时流式数据处理场景中

运算框架

解决的核心问题是将处理逻辑在很多机器上并行（分布式）

1.MAPREDUCE——Hadoop中的运算框架（离线批处理）

2.SPARK——离线批处理/实时流式计算

3.STORM——实时流式计算

补充：HDFS、HBASE、KAFKA通过访问接口也可在spark中使用

辅助类工具

1.FLUME——数据采集

2.SQOOP——数据迁移

3.HIVE——数据仓库工具（可接收sql，翻译成mapreduce或spark程序运行）

应用

1.公司产品运营分析

2.电商推荐系统

3.精准广告推送系统

醪糟小丸子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

醪糟小丸子 小小帮助，不足挂齿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。