Hadoop 05
1. yarn相关
- yarn配置每个节点的内存不宜过大(实际内存的5倍以上),否则执行大文件任务时会报code143错误,实际的现象是 resourcemanager进程直接挂掉,日志疯狂重连retry
- yarn默认资源管理器是以内存为标准的,所以其他参数:核数、线程数即使配置了,在yarn网页端也可能会显示不一致
- 硬件条件不一样的服务器,会根据服务器设置yarn-site.xml,比如大内存的机器和小内存的机器配置就不同
- yarn中用container表示机器的资源
2. 用户业务数据采集相关
场景:利用Maxwell从业务数据库MySQL中采集业务数据到Kafka
MySQL的Binlog技术
-
数据库每次插入、删除、更新操作,都会形成一条日志存入binlog中
-
binlog日志类型有三种:
a、基于sql语句(问题:若语句中有date()类似函数,则利用该binlog恢复数据时,时间会不一样,造成数据不一致)b、基于数据行(问题:binlog会很占空间)MySQL默认选择此种方式
c、混合模式(有date()函数的用b方式,否则用a模式)
Maxwell相关
-
底层原理:利用MySQL的主从复制,maxwell伪装成slave节点,从master节点获取binlog
-
Maxwell有四种json种类(3+1:insert插入、update更新、delete删除、bootstrap-xxx全量同步)
3. 行为日志数据采集相关
利用flume采集行为日志数据到Kafka
- 利用flume的kafkachannel 直接对接kafka,不需要经过sink