助力工业物联网，工业大数据项目之数据采集【四】

本文链接：https://blog.csdn.net/2401_84185074/article/details/137897848

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

	```
	yarn.scheduler.minimum-allocation-vcores=1
	yarn.scheduler.maximum-allocation-vcores=32
	yarn.scheduler.minimum-allocation-mb=1024
	yarn.scheduler.maximum-allocation-mb=8192
	
	```
	- MR Task资源
	
	 
	```
	mapreduce.map.cpu.vcores=1
	mapreduce.map.memory.mb=1024
	mapreduce.reduce.cpu.vcores=1
	mapreduce.reduce.memory.mb=1024
	
	```
	- Spark Executor资源
	
	 
	```
	--driver-memory  #分配给Driver的内存，默认分配1GB
	--driver-cores   #分配给Driver运行的CPU核数，默认分配1核
	--executor-memory #分配给每个Executor的内存数，默认为1G，所有集群模式都通用的选项
	--executor-cores  #分配给每个Executor的核心数，YARN集合和Standalone集群通用的选项
	--total-executor-cores NUM  #Standalone模式下用于指定所有Executor所用的总CPU核数
	--num-executors NUM #YARN模式下用于指定Executor的个数，默认启动2个
	
	```
+ **实现：修改问题1中的配置属性**


	- 注意：修改完成，要重启YARN
	
	 ![image-20210928200550336](https://img-blog.csdnimg.cn/img_convert/51dc0634ba3ee057bec1b7e26a7e9205.png)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jgRIa2kT-1673426702988)(Day2\_数仓设计及数据采集.assets/image-20210822085238536.png)]

小结
- 实现YARN的资源调度配置

03：MR的Uber模式

目标：了解MR的Uber模式的配置及应用
实施
- Spark为什么要比MR要快
  - MR慢
- 只有Map和Reduce阶段，每个阶段的结果都必须写入磁盘
  - 如果要实现Map1 -> Map2 -> Reduce1 -> Reduce2
  - Mapreduce1：Map1
  - MapReduce2：Map2 -> Reduce1
  - Mapreduce3：Reduce2
- MapReduce程序处理是进程级别：MapTask进程、ReduceTask进程
- 问题：MR程序运行在YARN上时，有一些轻量级的作业要频繁的申请资源再运行，性能比较差怎么办？
  - Uber模式
- 功能：Uber模式下，程序只申请一个AM Container：所有Map Task和Reduce Task，均在这个Container中顺序执行
```
  - 默认不开启
```
- 配置：${HADOOP_HOME}/etc/hadoop/mapred-site.xml
```
mapreduce.job.ubertask.enable=true
#必须满足以下条件
mapreduce.job.ubertask.maxmaps=9
mapreduce.job.ubertask.maxreduces=1
mapreduce.job.ubertask.maxbytes=128M
yarn.app.mapreduce.am.resource.cpu-vcores=1
yarn.app.mapreduce.am.resource.mb=1536M
```
- 特点
  - Uber模式的进程为AM，所有资源的使用必须小于AM进程的资源
  - Uber模式条件不满足，不执行Uber模式
  - Uber模式，会禁用推测执行机制
小结
- 了解MR的Uber模式的配置及应用

04：Sqoop采集数据格式问题

目标：掌握Sqoop采集数据时的问题
路径
- step1：现象
- step2：问题
- step3：原因
- step4：解决
实施
- 现象
  - step1：查看Oracle中CISS_SERVICE_WORKORDER表的数据条数
```
select count(1) as cnt from CISS_SERVICE_WORKORDER;
```
  - step2：采集CISS_SERVICE_WORKORDER的数据到HDFS上sqoop import
    –connect jdbc:oracle:thin:@oracle.bigdata.cn:1521:helowin
    –username ciss
    –password 123456
    –table CISS4.CISS_SERVICE_WORKORDER
    –delete-target-dir
    –target-dir /test/full_imp/ciss4.ciss_service_workorder
    –fields-terminated-by “\001”
    -m 1
```
- step3：Hive中建表查看数据条数

- 进入Hive容器

  ```
docker exec -it hive bash
  ```

- 连接HiveServer

  ```
  beeline -u jdbc:hive2://hive.bigdata.cn:10000 -n root -p 123456
  ```

- 创建测试表

  ```sql
  create external table test_text(
  line string
  )
  location '/test/full_imp/ciss4.ciss_service_workorder';
  ```

- 统计行数

  ```
  select count(*) from test_text;
  ```
```
- 问题：Sqoop采集完成后导致HDFS数据与Oracle数据量不符
- 原因
  - sqoop以文本格式导入数据时，默认的换行符是特殊字符
  - Oracle中的数据列中如果出现了\n、\r、\t等特殊字符，就会被划分为多行
  - Oracle数据
```
id			name				age
001			zhang\nsan			18
```
  - Sqoop遇到特殊字段就作为一行
```
001			zhang
san			18
```
  - Hive
```
id			name				age
001			zhang 
san			18
```
- 解决
  - 方案一：删除或者替换数据中的换行符
    - –hive-drop-import-delims：删除换行符
    - –hive-delims-replacement char：替换换行符
    - 不建议使用：侵入了原始数据
  - 方案二：使用特殊文件格式：AVRO格式
小结
- 掌握Sqoop采集数据时的问题

05：问题解决：Avro格式

目标：掌握使用Avro格式解决采集换行问题
路径
- step1：常见格式介绍
- step2：Avro格式特点
- step3：Sqoop使用Avro格式
- step4：使用测试

实施

常见格式介绍

类型	介绍
TextFile	Hive默认的文件格式，最简单的数据格式，便于查看和编辑，耗费存储空间，I/O性能较低
SequenceFile	含有键值对的二进制文件，优化磁盘利用率和I/O，并行操作数据，查询效率高，但存储空间消耗最大
AvroFile	特殊的二进制文件，设计的主要目标是为了满足schema evolution，Schema和数据保存在一起
OrcFile	列式存储，Schema存储在footer中，不支持schema evolution，高度压缩比并包含索引，查询速度非常快
ParquetFile	列式存储，与Orc类似，压缩比不如Orc，但是查询性能接近，支持的工具更多，通用性更强

  - SparkCore缺点：RDD【数据】：没有Schema
  - SparkSQL优点：DataFrame【数据 + Schema】
  - Schema：列的信息【名称、类型】

Avro格式特点
- 优点
  - 二进制数据存储，性能好、效率高
  - 使用JSON描述模式，支持场景更丰富
  - Schema和数据统一存储，消息自描述
  - 模式定义允许定义数据的排序
- 缺点
  - 只支持Avro自己的序列化格式
  - 少量列的读取性能比较差，压缩比较低
- 场景：基于行的大规模结构化数据写入、列的读取非常多或者Schema变更操作比较频繁的场景

Sqoop使用Avro格式

选项

--as-avrodatafile                                     Imports data to Avro datafiles

注意：如果使用了MR的Uber模式，必须在程序中加上以下参数避免类冲突问题

-Dmapreduce.job.user.classpath.first=true

使用测试

sqoop import \
-Dmapreduce.job.user.classpath.first=true \
--connect jdbc:oracle:thin:@oracle.bigdata.cn:1521:helowin \
--username ciss \
--password 123456 \
--table CISS4.CISS_SERVICE_WORKORDER \
--delete-target-dir \
--target-dir /test/full_imp/ciss4.ciss_service_workorder \
--as-avrodatafile \
--fields-terminated-by "\001" \
-m 1

  - Hive中建表
  
  
  	* 进入Hive容器
  	
  	 
  	```
  	docker exec -it hive bash
  	
  	```
  	* 连接HiveServer
  	
  	 
  	```
  	beeline -u jdbc:hive2://hive.bigdata.cn:10000 -n root -p 123456
  	
  	```
  	* 创建测试表
  	
  	 
  	```
  	create external table test_avro(
  	line string
  	)
  	stored as avro
  	location '/test/full\_imp/ciss4.ciss\_service\_workorder';
  	
  	```
  	* 统计行数
  	
  	 
  	```
  	select count(*) from test_avro;
  	
  	```

小结
- 掌握如何使用Avro格式解决采集换行问题

06：Sqoop增量采集方案回顾

目标：回顾Sqoop增量采集方案
路径
- step1：Append
- step2：Lastmodified
- step3：特殊方式

实施

Append

要求：必须有一列自增的值，按照自增的int值进行判断
特点：只能导入增加的数据，无法导入更新的数据
场景：数据只会发生新增，不会发生更新的场景
代码

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test02 \
--fields-terminated-by '\t' \
--check-column id \
--incremental append \
--last-value 0 \

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）