
大数据/数据采集(Flume/dataX)
文章平均质量分 78
日志采集:Flume
数据库采集:Sqoop
u013250861
这个作者很懒,什么都没留下…
展开
-
大数据-数仓-数据采集-日志数据(一):日志数据采集【日志文件--(Flume)>-->Kafka--(Flume)-->HDFS】
大数据-数据仓库-数据采集(一):日志数据采集【日志文件--(Flume)>-->Kafka--(Flume)-->HDFS】原创 2023-04-06 21:43:35 · 437 阅读 · 0 评论 -
大数据-数仓-数据采集-业务数据(一):全量同步(DataX、Sqoop) v.s. 增量同步(Maxwell、Canal)
1.种类繁多的数据同步工具中,大致可以分为两大类:① 基于Select查询的离线、批量同步工具,代表:DataX、Sqoop;② 基于数据库数据变更日志(mysql的binlog)的实时流式同步工具,代表:Maxwell、Canal;同步类型DataX、SqoopMaxwell、Canal全量同步Ö增量同步ÖÖ3.同步工具之间对增量同步不同方案的对比对比增量同步方案DataX、SqoopMaxwell、Canal对数据库的要求。原创 2023-04-09 12:43:08 · 1970 阅读 · 0 评论 -
大数据-数仓-数据采集-业务数据(二):全量同步采集【MySQL<-->DataX(全量)<-->HDFS】【每日全量:每天都将业务数据库中全部数据同步到数据仓库,是保证两侧数据同步的最简单方式】
1.种类繁多的数据同步工具中,大致可以分为两大类:① 基于Select查询的离线、批量同步工具,代表:DataXSqoop;② 基于数据库数据变更日志(mysql的binlog)的实时流式同步工具,代表:Maxwell、Canal;2.上述同步工具的全量或增量同步适用如下:同步类型DataXSqoopMaxwellCanal全量同步Ö增量同步ÖÖ3.同步工具之间对增量同步不同方案的对比对比增量同步方案DataXSqoopMaxwellCanal对数据库的要求。原创 2023-04-09 04:12:41 · 608 阅读 · 0 评论 -
大数据-数仓-数据采集-业务数据(三):增量同步采集【MySQL-(Maxwell)->Kafka-(Flume)->HDFS】【每日增量:每天只将业务数据中新增及变化的数据同步到数据仓库】
1.Maxwell是由美国Zendesk公司开源,使用Java编写的MySQL变更数据抓取软件。他会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以JSON的格式发送给Kafka、Kinesi等流数据处理平台。原创 2023-04-07 00:10:03 · 596 阅读 · 0 评论 -
大数据-Flume(一):日志收集系统【简介、安装】【Source(上游;日志)--Channel(缓冲区,线程共享变量,将上下游拆分成独立线程)-->Sink(下游;比如Kafaka、HDFS)】
Taildir Source维护了一个json格式的position File,其会定期的往position File中更新每个文件读取到的最新的位置,因此能够实现断点续传。:在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。上的flume-3,接收flume-1和flume-2的数据,flume-3将最终数据打印到控制台。:根据event中Header的某个key的值,将不同的event发送到不同的Channel中,原创 2023-04-02 15:25:26 · 174 阅读 · 0 评论 -
大数据-Flume(一):日志收集系统【将应用产生的日志数据发送到Kafka/HDFS/HBase】【Source(上游)--Channel(缓冲区)-->Sink(下游)】【基于CentOS6】
一、Flume安装1、在hadoop102服务器上安装2、将Flume目录、环境变量文件分发到hadoop101、hadoop103上二、编写Agent的配置文件三、Flume的使用1、Agent01(netcatsource):监听某个tcp端口手动的数据,然后将数据输出到控制台1.1 Agent01配置文件:netcatsource-loggersink.conf1.2 启动 Agent012、Agent02(execsource):实时监控单个本机文件的内容,将内容写入到HDFS2.原创 2021-01-12 23:01:44 · 1935 阅读 · 0 评论 -
大数据-Flume(三):案例、配置文件编写【案例①:netcat-->logger】【案例②:taildir-->hdfs】
使用Flume监听一个,收集该端口数据,并打印到。原创 2023-04-02 15:42:43 · 515 阅读 · 0 评论 -
Flume、Kafka区别:【Flume:消息采集系统,主要用于日志收集】【Kafka:消息缓存系统,通用型系统】
Flume更趋向于消息采集系统,Kafka更趋向于消息缓存系统。kafka:目前项目中主要是用来做消息推送中间件,消息的处理完全由业务方自己定义,请求频次单机吞吐量轻轻松松50W+/s,数据在集群不全挂的情况下是不会丢数据,消费也很灵活,可以指定分区和offset,可以当做成一个数据库。flume:用来做数据采集和落地,目前使用的是flume-ng,流程是source(kafka)->channel->hdfs 相比较kafka比较轻量级 ,就是一个数据的流通管道,当一个flume实例挂了 数据会丢失。原创 2023-03-05 22:51:43 · 967 阅读 · 0 评论 -
大数据-ETL工具:Sqoop【关系型数据库(MySQL,Oracle...) <==(业务)数据==> Hive/HBase/HDFS】【Hadoop与关系数据库之间传送数据的工具】
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。原创 2021-01-14 00:14:15 · 1690 阅读 · 0 评论 -
大数据-Flume():运行脚本【监听端口】
【代码】大数据-Flume():运行脚本【监听端口】原创 2023-04-06 20:35:49 · 319 阅读 · 0 评论