Hadoop 05

本文探讨了YARN配置的最佳实践,强调了节点内存不宜过大的问题,以及Maxwell如何利用MySQL Binlog进行实时数据采集到Kafka。同时介绍了Flume在行为日志数据采集中的角色,直接对接Kafka避免了通过sink的额外步骤。
摘要由CSDN通过智能技术生成

Hadoop 05


1. yarn相关

  • yarn配置每个节点的内存不宜过大(实际内存的5倍以上),否则执行大文件任务时会报code143错误,实际的现象是 resourcemanager进程直接挂掉,日志疯狂重连retry
  • yarn默认资源管理器是以内存为标准的,所以其他参数:核数、线程数即使配置了,在yarn网页端也可能会显示不一致
  • 硬件条件不一样的服务器,会根据服务器设置yarn-site.xml,比如大内存的机器和小内存的机器配置就不同
  • yarn中用container表示机器的资源

2. 用户业务数据采集相关

场景:利用Maxwell从业务数据库MySQL中采集业务数据到Kafka

MySQL的Binlog技术

  • 数据库每次插入、删除、更新操作,都会形成一条日志存入binlog中

  • binlog日志类型有三种:
    a、基于sql语句(问题:若语句中有date()类似函数,则利用该binlog恢复数据时,时间会不一样,造成数据不一致)

    b、基于数据行(问题:binlog会很占空间)MySQL默认选择此种方式

    c、混合模式(有date()函数的用b方式,否则用a模式)

Maxwell相关

  • 底层原理:利用MySQL的主从复制,maxwell伪装成slave节点,从master节点获取binlog

  • Maxwell有四种json种类(3+1:insert插入、update更新、delete删除、bootstrap-xxx全量同步)

3. 行为日志数据采集相关

利用flume采集行为日志数据到Kafka

  • 利用flume的kafkachannel 直接对接kafka,不需要经过sink
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值