面向未来的大数据核心技术都有什么？

最新推荐文章于 2022-09-08 16:41:23 发布

测试小扎

最新推荐文章于 2022-09-08 16:41:23 发布

阅读量1k

点赞数 1

分类专栏： python 文章标签： hadoop 大数据 mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57290404/article/details/125527927

版权

本文探讨了大数据技术的关键环节，包括数据采集（如Flume、DataX）、数据存储与分析（HDFS、Hive、MapReduce、Spark）、数据共享（通过关系型数据库和NOSQL数据库）、数据应用（报表、即席查询、OLAP）、实时计算（Spark Streaming）以及任务调度与监控。重点介绍了如何利用Hadoop、Spark等工具构建高效的大数据处理平台。

摘要由CSDN通过智能技术生成

1、数据采集

数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上，期间有可能会做一些简单的清洗。数据源的种类比较多：

网站日志：作为互联网行业，网站日志占的份额最大，网站日志存储在多台网站日志服务器上，一般是在每台网站日志服务器上部署flume agent，实时的收集网站日志并存储到HDFS上；

业务数据库：业务数据库的种类也是多种多样，有Mysql、Oracle、SqlServer等，这时候，我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具，Sqoop是一种，但是Sqoop太过繁重，而且不管数据量大小，都需要启动MapReduce来执行，而且需要Hadoop集群的每台机器都能访问业务数据库；应对此场景，淘宝开源的DataX，是一个很好的解决方案，有资源的话，可以基于DataX之上做二次开发，就能非常好的解决。当然，Flume通过配置与开发，也可以实时的从数据库中同步数据到HDFS。

来自于Ftp/Http的数据源：有可能一些合作伙伴提供的数据，需要通过Ftp/Http等定时获取，DataX也可以满足该需求；

其他数据源：比如一些手工录入的数据，只需要提供一个接口或小程序即可完成。

2、数据存储与分析

毋庸置疑HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

离线数据分析与计算，也就是对实时性要求不高的部分，在笔者看来，Hive还是首当其冲的选择，丰富的数据类型、内置函数；压缩比非常高的ORC文件存储格式；非常方便的SQL支持，使得Hive在基于结构化数据上的统计

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。