百度飞桨第二课|数据集的获取途径和数据处理的技巧

本课程详细讲解了数据集获取的多种途径,包括百度AI Studio、Kaggle等,以及数据预处理的步骤,如感知数据、数据清理、特征变换和选择。重点讨论了数据增强在防止过拟合中的作用,并通过对比实验展示了其重要性。同时,介绍了如何使用labelimg和labelme等工具制作和标注自定义数据集。
摘要由CSDN通过智能技术生成

本次课程主要介绍了数据集获取,以及数据标注、数据划分、数据增强处理方法和简单的口罩检测实现,及其用数据增强和不用数据增强的对比实验,体现了数据增强在AI学习中的重要性。

目录

一、数据集的获取

获取途径

数据预处理

1.感知数据

2.数据清理

3.特征变换

4.特征选择

5.特征抽取

二、数据处理

官方数据格式

自定义数据集进行训练

标注(常见标注工具)

制作VOC格式与COCO格式数据集并划分

三、数据处理方法(以图片处理为例)

图像的本质

为什么要做数据增强

四、模型训练与评估

比对实验  


一、数据集的获取

获取途径

  • 百度AI Studio
  • Kaggle
  • 天池
  • 科大讯飞官网
  • COCO数据集

数据预处理

  • 1.感知数据

  ----初步了解数据

  ----记录和特征的数量特征的名称

  ----抽样了解记录中的数值特点描述性统计结果

  ----特征类型

  ----与相关知识领域数据结合,特征融合

  • 2.数据清理

  ----转换数据类型

  ----处理缺失数据

  ----处理离群数据

  • 3.特征变换

  ----特征数值化

  ----特征二值化

  ----OneHot编码

  ----特征离散化特征

  ----规范化

    区间变换

    标准化

    归一化

  • 4.特征选择

  ----封装器法

    循序特征选择

    穷举特征选择

    递归特征选择

  ----过滤器法

  ----嵌入法

  • 5.特征抽取

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值