大数据（四）大数据采集

最新推荐文章于 2024-08-05 18:40:34 发布

羽落风起

最新推荐文章于 2024-08-05 18:40:34 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签： big data 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22973811/article/details/120219589

版权

大数据专栏收录该内容

53 篇文章 4 订阅

订阅专栏

文章目录

说明
分享
数据采集
种类
总结

2021-09-10

说明

本博客每周五更新一次。
数据处理分为入库、计算和输出，本文主要分享数据入库。

分享

大数据博客列表

数据采集

数据采集是大数据平台数据处理流程的第一步，如何让数据以合适的效率和方式在大数据平台落地，根据场景不同，有着不同方案。一般情况如下。
- 实时数据量巨大，要求绝对的效率，单位时间无法处理意味着数据丢失，一般这种情况下，源数据不做任何转换，如通信行业、电商平台等。
- 数据量中等或一般，要求数据字段一对一转换，并要求同步更新，如mysql、oracle数据库同步。
采集数据追求效率有优先，并能实时同步，针对这些需求，市场上已有成熟的项目或服务，后面一一介绍。

种类

数据采集分为两部分，数据转换和数据传输。
- 数据转换：将源数据转换为符合要求的数据结构，通过数据传输录入大数据集群。
- 数据传输：将源数据录入大数据平台。

数据转换

datax

阿里巴巴开源数据离线同步工具，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。
表结构映射关系通过json文件设置。

Sqoop

Apache 开源数据转换工具，主要用于hadoop、Hive、Hbase与传统数据库(mysql、Oracle、postgresql等)间进行数据的传递，反过来，也可以将关系型数据库中数据同步到Hadoop中。

flume

Cloudera发布的高可用、高可靠、分布式海量日志采集、聚合和传输的系统，兼顾数据转换和传输，支持发送方收集数据时定制各类数据；接收方对数据进行简单处理。
flume0.9 和 flume1.0 两个版本变动较大，区别对待。

数据传输

kafka

Apache 开源流处理平台，运行稳定，性能高效，广泛应用于大数据和数据传输领域。
开发语言java和scala。

pulsar

队列和流一体消息传递模型，属于新一代组件，与kafka对标项目，未使用过不做评价。
开发语言java

hdfs-over-ftp

github开源项目，功能是将hadoop平台hdfs数据存储单个节点映射为ftp或sftp服务端，在使用ftp或sftp客户端完成上传。

总结

数据采集是大数据平台重要一环，每个平台对这部分的要求都有差异，适合自己的就是最好的。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。