初识大数据采集

最新推荐文章于 2024-08-05 18:40:34 发布

小麦兜Data

最新推荐文章于 2024-08-05 18:40:34 发布

阅读量856

点赞数

分类专栏：数据仓库文章标签：大数据 hdfs sqoop hadoop hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38382661/article/details/117247982

版权

本文介绍了大数据采集的各个环节，包括数据源（如日志、数据库）、数据同步工具（如Sqoop、DataX、Canal、Waterdrop）以及实时同步与离线采集的实践。数据落地涉及Hive、HBase等存储，强调了数据采集系统的灵活性和自助化操作。重点讨论了离线数据同步中MySQL到Hive的同步流程，并提到了Flink实时计算平台的特性。

摘要由CSDN通过智能技术生成

在大数据系统体系中，数据源、数据采集是第一环。

本文从以下几个方面分享数据采集：

数据源 2.数据同步工具 3.数据采集模块实战分享

数据源

在企业生产应用中数据来源极多，大致可以分为：日志采集、爬虫系统、数据库等

数据采集

在生产实际应用中，一般将数据采集分为日志采集和数据库数据同步两部分。其中日志采集包括浏览器的页面日志采集和客户端的日志采集。

数据同步技术更通用的含义是不同系统间的数据流转，有多种不同的应用场景。主数据库与备份数据库之间的数据备份，以及主系统与子系统之间的数据更新，属于同类型不同集群数据库之间的数据同步。另外，还有不同地域、不同数据库类型之间的数据传输交换，比如分布式业务系统与数据仓库系统之间的数据同步。总体方案分为两种：

实时同步，比如Flume实时采集日志，比如Canal实时采集mysql的binlog或者从kafka中获取。
离线同步，比如使用sqoop离线同步等。

技术选型

现在业内常用的数据采集常用框架有Flume、Sqoop、LogStash、DataX、Canal、WaterDrop等。这些工具的使用都比较简单，学习成本较低。根据每种工具的适用范围和优缺点。结合自己的业务和使用场景进行选择使用。

Flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。如下图是单Agent架构图。

Logstash

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。