助力工业物联网，工业大数据项目之数据采集【四】

本文链接：https://blog.csdn.net/2401_84181403/article/details/138280157

文章详细介绍了如何使用Sqoop进行数据采集，包括连接参数设置、Oracle数据迁移，以及YARN资源调度中的常见问题，如内存限制、Container资源分配、Uber模式的应用和数据格式转换。还讨论了如何通过调整配置解决资源不足和数据不一致等问题，以及推荐使用AVRO格式以避免数据格式问题。

摘要由CSDN通过智能技术生成

+ step4：导出参数
+ step5：其他参数

实施

语法

sqoop import | export \
--数据库连接参数
--HDFS或者Hive的连接参数
--配置参数

数据库参数
- –connect jdbc:mysql://hostname:3306
- –username
- –password
- –table
- –columns
- –where
- -e/–query
导入参数
- –delete-target-dir
- –target-dir
- –hcatalog-database
- –hcatalog-table
导出参数
- –export-dir
- –hcatalog-database
- –hcatalog-table
其他参数
- -m
连接Oracle语法

--connect jdbc:oracle:thin:@OracleServer:OraclePort:OracleSID

测试采集Oracle数据

进入

docker exec -it sqoop bash

测试

sqoop import \
--connect jdbc:oracle:thin:@oracle.bigdata.cn:1521:helowin \
--username ciss \
--password 123456 \
--table CISS4.CISS_BASE_AREAS \
--target-dir /test/full_imp/ciss4.ciss_base_areas \
--fields-terminated-by "\t" \
-m 1

查看结果

小结
- 掌握Sqoop常用命令的使用

02：YARN资源调度及配置

目标：实现YARN的资源调度配置
实施
- 常用端口记住：排错
  - NameNode：8020,50070
  - ResourceManager：8032,8088
  - JobHistoryServer：19888
  - Master：7077,8080
  - HistoryServer：18080
- YARN调度策略
  - FIFO：不用
    - 单队列，队列内部FIFO，所有资源只给一个程序运行
  - Capacity：Apache
    - 多队列，队列内部FIFO，资源分配给不同的队列，队列内部所有资源只给一个程序运行
  - Fair：CDH
    - 多队列，队列内部共享资源，队列内部的资源可以给多个程序运行
- YARN面试题
  - 程序提交成功，但是不运行而且不报错，什么问题，怎么解决？
    - 资源问题：APPMaster就没有启动
    - 环境问题
      - NodeManager进程问题：进程存在，但不工作
      - 机器资源不足导致YARN或者HDFS服务停止：磁盘超过90%，所有服务不再工作
      - 解决：实现监控告警：80%，邮件告警
  - YARN中程序运行失败的原因遇到过哪些？
    - 代码逻辑问题
    - 资源问题：Container
      - Application / Driver：管理进程
      - MapTask和ReduceTask / Executor：执行进程
    - 解决问题：配置进程给定更多的资源
- 问题1：程序已提交YARN，但是无法运行，报错：Application is added to the scheduler and is not activated. User’s AM resource limit exceeded.
```
yarn.scheduler.capacity.maximum-am-resource-percent=0.8
```
```
  - 配置文件：${HADOOP\_HOME}/etc/hadoop/capacity-scheduler.xml
  - 属性功能：指定队列最大可使用的资源容量大小百分比，默认为0.2，指定越大，AM能使用的资源越多
```
- 问题2：程序提交，运行失败，报错：无法申请Container
```
yarn.scheduler.minimum-allocation-mb=512
```
```
  - 配置文件：${HADOOP\_HOME}/etc/hadoop/yarn-site.xml
  - 属性功能：指定AM为每个Container申请的最小内存，默认为1G，申请不足1G，默认分配1G，值过大，会导致资源不足，程序失败，该值越小，能够运行的程序就越多
```
- 问题3：怎么提高YARN集群的并发度？
  - 物理资源、YARN资源、Container资源、进程资源
  - YARN资源配置
```
yarn.nodemanager.resource.cpu-vcores=8
yarn.nodemanager.resource.memory-mb=8192
```
  - Container资源
```
yarn.scheduler.minimum-allocation-vcores=1
yarn.scheduler.maximum-allocation-vcores=32
yarn.scheduler.minimum-allocation-mb=1024
yarn.scheduler.maximum-allocation-mb=8192
```
  - MR Task资源
```
mapreduce.map.cpu.vcores=1
mapreduce.map.memory.mb=1024
mapreduce.reduce.cpu.vcores=1
mapreduce.reduce.memory.mb=1024
```
  - Spark Executor资源
```
--driver-memory  #分配给Driver的内存，默认分配1GB
--driver-cores   #分配给Driver运行的CPU核数，默认分配1核
--executor-memory #分配给每个Executor的内存数，默认为1G，所有集群模式都通用的选项
--executor-cores  #分配给每个Executor的核心数，YARN集合和Standalone集群通用的选项
--total-executor-cores NUM  #Standalone模式下用于指定所有Executor所用的总CPU核数
--num-executors NUM #YARN模式下用于指定Executor的个数，默认启动2个
```
- 实现：修改问题1中的配置属性
  - 注意：修改完成，要重启YARN
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jgRIa2kT-1673426702988)(Day2_数仓设计及数据采集.assets/image-20210822085238536.png)]

小结
- 实现YARN的资源调度配置

03：MR的Uber模式

目标：了解MR的Uber模式的配置及应用
实施
- Spark为什么要比MR要快
  - MR慢
- 只有Map和Reduce阶段，每个阶段的结果都必须写入磁盘
  - 如果要实现Map1 -> Map2 -> Reduce1 -> Reduce2
  - Mapreduce1：Map1
  - MapReduce2：Map2 -> Reduce1
  - Mapreduce3：Reduce2
- MapReduce程序处理是进程级别：MapTask进程、ReduceTask进程
- 问题：MR程序运行在YARN上时，有一些轻量级的作业要频繁的申请资源再运行，性能比较差怎么办？
  - Uber模式
- 功能：Uber模式下，程序只申请一个AM Container：所有Map Task和Reduce Task，均在这个Container中顺序执行
```
  - 默认不开启
```
- 配置：${HADOOP_HOME}/etc/hadoop/mapred-site.xml
```
mapreduce.job.ubertask.enable=true
#必须满足以下条件
mapreduce.job.ubertask.maxmaps=9
mapreduce.job.ubertask.maxreduces=1
mapreduce.job.ubertask.maxbytes=128M
yarn.app.mapreduce.am.resource.cpu-vcores=1
yarn.app.mapreduce.am.resource.mb=1536M
```
- 特点
  - Uber模式的进程为AM，所有资源的使用必须小于AM进程的资源
  - Uber模式条件不满足，不执行Uber模式
  - Uber模式，会禁用推测执行机制
小结
- 了解MR的Uber模式的配置及应用

04：Sqoop采集数据格式问题

目标：掌握Sqoop采集数据时的问题
路径
- step1：现象
- step2：问题
- step3：原因
- step4：解决
实施
- 现象
  - step1：查看Oracle中CISS_SERVICE_WORKORDER表的数据条数
```
select count(1) as cnt from CISS_SERVICE_WORKORDER;
```
  - step2：采集CISS_SERVICE_WORKORDER的数据到HDFS上sqoop import
    –connect jdbc:oracle:thin:@oracle.bigdata.cn:1521:helowin
    –username ciss
    –password 123456
    –table CISS4.CISS_SERVICE_WORKORDER
    –delete-target-dir
    –target-dir /test/full_imp/ciss4.ciss_service_workorder
    –fields-terminated-by “\001”
    -m 1
```
- step3：Hive中建表查看数据条数

- 进入Hive容器

  ```
docker exec -it hive bash
  ```

- 连接HiveServer

  ```
  beeline -u jdbc:hive2://hive.bigdata.cn:10000 -n root -p 123456
  ```

- 创建测试表

  ```sql
  create external table test_text(
  line string
  )
  location '/test/full_imp/ciss4.ciss_service_workorder';
  ```

- 统计行数

  ```
  select count(*) from test_text;
  ```
```
- 问题：Sqoop采集完成后导致HDFS数据与Oracle数据量不符
- 原因
  - sqoop以文本格式导入数据时，默认的换行符是特殊字符
  - Oracle中的数据列中如果出现了\n、\r、\t等特殊字符，就会被划分为多行
  - Oracle数据
```
id			name				age
001			zhang\nsan			18
```
  - Sqoop遇到特殊字段就作为一行
```
001			zhang
san			18
```
  - Hive
```
id			name				age
001			zhang 
san			18
```
- 解决
  - 方案一：删除或者替换数据中的换行符
    - –hive-drop-import-delims：删除换行符
    - –hive-delims-replacement char：替换换行符
    - 不建议使用：侵入了原始数据
  - 方案二：使用特殊文件格式：AVRO格式
小结