数据采集工具

最新推荐文章于 2024-07-14 17:39:43 发布

福贵儿

最新推荐文章于 2024-07-14 17:39:43 发布

阅读量2.8k

点赞数

分类专栏：大数据文章标签：收集数据工具大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yushuzii/article/details/100985189

版权

大数据专栏收录该内容

46 篇文章 4 订阅

订阅专栏

起源

关系数据库（RDMS）是数据分析与处理的主要工具，我们在关系数据库上积累了大量处理数据的技巧、知识与经验。

当大数据技术来临的时候，我们自然而然就会思考，能不能将关系数据库数据处理的技巧和方法转移到大数据技术上呢？于是，就出现了Hive、Spark SQL、Impala等大数据产品。

值得注意的是，虽然像Hive这样的大数据产品可以提供和关系数据库一样的SQL操作，但是互联网应用产生的数据却还是只能记录在类似MySQL这样的关系数据库上。这是因为互联网应用需要实时响应用户操作，基本上都是在毫级完成用户的数据读写操作，通过前面的学习我们知道，大数据不是为这种毫秒级的访问设计的。

所以，我们就需要工具将关系数据库导入到大数据平台上，例如HDFS。目前比较好常用的导入工具有Sqoop和Canal，Flume。

工具

Sqoop

它是适合离线批量导入关系数据库的数据，也可以将Hadoop数据导入到关系型数据库，双向。使用起来也比较简单， Sqoop数据导入命令示例如下：

$ sqoop import --connect jdbc:mysql://localhost/db --username foo --password --table TEST

你需要指定数据库URL、用户名、密码、表名，就可以将数据表的数据导入到Hadoop。

Canle（github：https://github.com/alibaba/canal）

它是适合实时导入关系数据库的数据，是阿里巴巴开源的一个MySQL binlog获取工具，binlog是MySQL的事务日志，可用于MySQL数据库主从复制，Canal将自己伪装成MySQL从库，从MySQL获取binlog。

而我们只要开发一个Canal客户端程序就可以解析出来MySQL的写操作数据，将这些数据交给大数据流计算处理引擎，就可以实现对MySQL数据的实时处理了。

flume

它比较常用的大数据日志收集工具，最早由Cloudera开发，后来捐赠给Apache基金会作为开源项目运营。

日志也是大数据处理与分析的重要数据来源之一，应用程序日志一方面记录了系统运行期的各种程序执行状况，一方面也记录了用户的业务处理轨迹。

Flume架构如下：

从图上看，Flume收集日志的核心组件是Flume Agent，负责将日志从数据源收集起来并保存到大数据存储设备。

Agent Source负责收集日志数据，例如从Kafka、本地日志文件等。Source收集到数据后，将数据封装成event事件，发送给Channel。Channel是一个队列，有内存、磁盘、数据库等几种实现方式，主要用来对event事件消息排队，然后发送给Sink。Sink收到数据后，将数据输出保存到大数据存储设备，比如HDFS、HBase等。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

福贵儿 CSDN认证博客专家 CSDN认证企业博客

码龄7年

111: 原创

5万+: 周排名

186万+: 总排名

26万+: 访问

: 等级

3295: 积分

15: 粉丝

28: 获赞

54: 评论

155: 收藏

私信

关注

热门文章

分类专栏

源码 2篇
数据结构与算法 3篇
LeetCode 4篇
笔记 2篇
成长感悟 1篇
数据分析 3篇
Qlik 10篇
Linux 7篇
Shell 2篇
Java 19篇
Vue 3篇
分布式 1篇
微服务 1篇
数据库 9篇
工具 5篇
大数据 46篇
SQL 7篇
虚拟机 5篇
排序 5篇

最新评论

正则匹配XXX之前之后写法
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)增加条理清晰的目录；(3)使用标准目录。
窗口函数的使用
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)使用更多的站内链接。
Qlik之的应用备份(.qvf) (六)
福贵儿: 服务器
Qlik之的应用备份(.qvf) (六)
胖豆儿: 您好，请问导出后的文件存放在了哪个位置了呢？谢谢~~~
Azkaban报NullPointerException【已解决】
傲过: 同样的错误但是按楼主这个方法并没有解决也没有楼主描述的缺少文件的问题只是home下没有root文件夹

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。