百度AI达人创造营第二课

最新推荐文章于 2024-02-18 20:54:09 发布

蘇音未改

最新推荐文章于 2024-02-18 20:54:09 发布

阅读量585

点赞数

分类专栏：百度AI达人创造营

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46175415/article/details/119215874

版权

百度AI达人创造营专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了数据集的获取途径，如Kaggle、天池和DataFountain，涉及多个领域的数据集，包括房价预测、图像分类和生存预测等。接着讲解了图像处理的完整流程，包括数据预处理、特征工程和数据增强，旨在防止过拟合。此外，提到了常用的数据标注工具如labelimg和labelme，并讨论了图像的本质和数据增强的原因。最后，概述了模型训练与评估中的关键指标，如精确率、召回率和准确率。

摘要由CSDN通过智能技术生成

百度AI达人创造营第二课

一、数据集的获取
二、常见标注工具
三、数据处理方法
- 3.1 图像的本质
- 3.2 为什么要做这些数据增强
四、模型训练与评估

一、数据集的获取

1.1 Kaggle比较有趣的数据集

(1)House Prices-Advanced Regression Techniques
预测销售价格

(2)Cat and Dog
猫狗分类

(3)Machine Learning from Disaster
预测泰坦尼克号的生存情况并熟悉机器学习基础知识

1.2 天池

(1)Barley Remote Sensing Dataset大麦遥感检测数据集
遥感影像分割

(2)耶鲁人脸数据库
目标检测任务(人脸检测)

1.3 DataFountain

(1)花卉分类数据集
图像分类

1.4 其他常用的数据集官网

(1)科大讯飞官网

(2)COCO数据集

1.5 完整流程概述

1.5.1 图像处理完整流程

(1) 图片数据获取
(2) 图片数据清洗
(3) 图片数据标注
(4) 图片数据预处理data preprocessing。
(5) 图片数据准备data preparation(训练+测试阶段)
(6) 图片数据增强data augjmentation（训练阶段）

1.5.2 数据预处理与特征工程

(1) 感知数据
(2) 数据清理
(3) 特征变换
(4) 特征选择
(5) 特征抽取

二、常见标注工具

对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。
标注工具Github地址：
labelimg
labelme
PPOCRLabel

三、数据处理方法

3.1 图像的本质

我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图。如下图所示：在这里插入图片描述
位图的特点:
由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真

矢量图的特点:
超矢量定义
放太不模糊
文件体积较小
表现力差

3.2 为什么要做这些数据增强

是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

四、模型训练与评估

在机器学习领域中，用于评价一个模型的性能有多种指标，其中几项就是FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。