bigdata_04_数据传输框架
文章平均质量分 73
采集框架
最佳第六六六人
一只威武的大数据架构攻城狮
展开
-
DataX下载安装及操作
1.1 DataX下载地址http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz1.2 安装DataX步骤1:使用wget命令,采用阿里云地址下载[root@hadoop201 software]# wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz下载后当前路径下会有tar包-rw-r--r-- 1 root root 8293原创 2021-03-06 01:46:29 · 8999 阅读 · 0 评论 -
DataX执行的json文件详细解析
1.3 DataX执行的json文件解析{ job: //最外侧,任务 setting:{ //设置 speed:{ //速度 channel:3 //指定用几个子线程去跑这个任务,线程越多,速度越快 content:{ //内容 reader:{ //读数据部分 name:"hdfsreader" //指明什么类型的reader,hdfsreader读HDFS parameter:{ //参数 pa原创 2021-03-06 01:43:54 · 7332 阅读 · 0 评论 -
Maxwell原理与应用
5 Maxwell用java编写的MySQL实时抓取工具,其抓取原理也是基于binlog。5.1 Maxwell和canal对比①功能对比Maxwell没有canal那种server-client模式,只有一个server把数据发送到消息队列或redis(发送到redis是做缓存分析用的)。Maxwell亮点功能:就是canal只能抓取最新的数据,对已存在的历史数据没有办法处理。而Maxwell有一个bootstrap功能,可以引导出完整的历史数据用于初始化,非常号用。Maxwell不支原创 2021-01-12 23:15:19 · 2030 阅读 · 0 评论 -
Canal原理与应用
2 Canal2.1 canal概念数据采集:canal(阿里巴巴的)什么是canal?应用场景:通过canal同步两个数据库,同步数据。更新缓存,缓存服务器(canal监控数据库、同步缓存)抓取业务表的新增变化数据,用于制作实时统计。(我们用的就是这种场景)2.2 canal工作原理①MySQL主从复制过程:Master主库记录改变,写到二进制(binary log)中Slave从库向mysql master发送dump协议,将master主库的bin原创 2021-01-12 23:13:50 · 861 阅读 · 0 评论 -
大数据7_05_Sqoop导入数据到hdfs
5 导入数据到hdfs[atguigu@hadoop102 bin]$ vim mysql_to_hdfs.sh声明变量:APP和sqoop昨天的日期:date --help查看date的使用说明date -d ‘yesterday’date -d ‘-1 day’放在shell中需要加一个`号或者放在$()内echo $(date -d '-1 day')echo `date -d '-1 day'`第一个参数是:first表示第一次到数据,对于一些仅仅上传一次原创 2020-11-17 23:13:42 · 208 阅读 · 1 评论 -
大数据7_04_Sqoop同步策略
4 Sqoop同步策略小公司,为了处理简单,业务表数据量小的情况下,一般是全量导入。中大型公司,由于数据量比较大,需要严格按照同步策略导入数据。业务数据上传到HDFS需要一个同步策略。来保证数据两边数据是一致的。Ø 全量表:存储完整的数据。Ø 增量表:存储新增加的数据。Ø 新增及变化表:存储新增加的数据和变化的数据。Ø 特殊表:只需要存储一次。4.1 全量同步每日全量,就是每天存储一份完整数据,作为一个分区。适用于数据量不大,且每天既会有新数据生成,也会有旧数据更改的场景。原创 2020-11-17 23:12:46 · 520 阅读 · 0 评论 -
大数据7_03_Sqoop命令操作
3 Sqoop命令操作3.1查看mysql中的数据库[atguigu@hadoop102 sqoop]$ bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root -password 123456出现如下输出:information_schemametastoremysqloozieperformance_schema3.2 查看mysql中的表[atguigu@hadoop102原创 2020-11-17 23:11:57 · 144 阅读 · 0 评论 -
大数据7_02_Sqoop安装配置
2 Sqoop安装配置步骤1:上传安装包到/opt/software/步骤2:解压安装包到/opt/module/[atguigu@hadoop102 software]$ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/# 修改文件夹名[atguigu@hadoop102 module]$ mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop步骤3:配置sqoop依赖的原创 2020-11-17 23:11:13 · 71 阅读 · 0 评论 -
大数据7_01_Sqoop简介
1 Sqoop简介1.1 概念MySQL ----导入import----> Hadoop生态(HDFS、Hbase、Hive)Hadoop生态 ----导出----> MySQL一般导入比较常用,业务数据上传到HDFS,HIve的表,Hbase的表导出export场景一般为:业务可视化的报表。sqoop的底层原理是MapReduce,但是MR只有map没有reduce。因为只需要传输数据,不需要聚合等操作。1.2 Sqoop的切片策略sqoop的切片数:–n原创 2020-11-17 23:08:54 · 253 阅读 · 0 评论 -
大数据5_03_Flume进阶-内部原理-案例
4 Flume进阶4.1 Flume事务事务的4个特点是:ACID:原子性,一致性,隔离性,持久性flume的事务分成两个部分:第一部分是put事务doput会将数据写入临时缓冲区putlist,docommit会检查channel内存队列是否可以合并,如果可以则正常写入channel,如果失败,会回滚数据第二部分是take事务dotake会将数据取到临时缓冲区takelist,docommit正常写出数据,还会清空临时缓冲区的takelist,如果失败,会回滚,把临时缓冲区ta原创 2020-11-11 13:03:46 · 203 阅读 · 1 评论 -
大数据5_05_Flume数据流监控
6 Flume数据流监控Ganglia由gmond、gmetad和gweb三部分组成。gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gmond,你可以很容易收集很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。gmetad(Ganglia Meta Daemon)整合所有信息,并将其以RRD格式存储至磁盘的服务。gweb(Ganglia Web)Ganglia可视化工具,gweb是一种利用浏览原创 2020-11-03 01:01:22 · 176 阅读 · 0 评论 -
大数据5_02_Flume入门案例
3 Flume入门3.1 监控端口数据(官方案例)使用Flume监听一个端口,收集该端口数据,并打印到控制台。首先可以确定的是source用netcat;channel用memory;sink用logger步骤1:安装netcat工具sudo yum install -y nc步骤2:判断44444端口是否被占用sudo netstat -lnp | grep 44444步骤3:创建job文件夹,在里面写flume agent的配置文件flume-netcat-logger.conf原创 2020-11-03 00:58:46 · 197 阅读 · 0 评论 -
大数据5_01_flume概述与安装部署
1 Flume概述Flume是一个Cloudera提供的分布式、高可用、高可靠的海量日志采集、聚合、传输的系统。Flume的主要作用是:实时读取服务器本地磁盘的数据,将数据写入到HDFS。1.1 Flume基本架构①Agentagent是一个jvm进程,以事件的形式将数据从源头送到目的地。Agent由三个部分组成:Source、Channel、Sink②SourceSource主要是负责接收数据到Flume Agent的组件。https://flume.apache.org/rel原创 2020-11-03 00:56:09 · 113 阅读 · 0 评论