百度飞浆第二课

百度飞浆第二课知识点

本节课主要内容: 数据集的获取途径和数据处理的技巧,课程内容包含项目数据集获取的方法、数据集标注方法、数据集处理方法、数据增强方法等实用技巧。

图像处理完整流程

图片数据获取
图片数据清洗
  ----初步了解数据,筛选掉不合适的图片

图片数据标注
图片数据预处理data preprocessing。
  ----标准化 standardlization

一 中心化 = 去均值 mean normallization

一 将各个维度中心化到0

一 目的是加快收敛速度,在某些激活函数上表现更好

一 归一化 = 除以标准差

一 将各个维度的方差标准化处于[-1,1]之间

一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

图片数据准备data preparation(训练+测试阶段)
  ----划分训练集,验证集,以及测试集

图片数据增强data augjmentation(训练阶段 )
  ----CV常见的数据增强

· 随机旋转

· 随机水平或者重直翻转

· 缩放

· 剪裁

· 平移

· 调整亮度、对比度、饱和度、色差等等

· 注入噪声

· 基于生成对抗网络GAN做数搪增强AutoAugment等

纯数据处理完整流程

数据预处理与特征工程

1.感知数据

----初步了解数据

----记录和特征的数量特征的名称

----抽样了解记录中的数值特点描述性统计结果

----特征类型

----与相关知识领域数据结合,特征融合

2.数据清理
  ----转换数据类型

----处理缺失数据

----处理离群数据

3.特征变换
  ----特征数值化

----特征二值化

----OneHot编码

----特征离散化特征

----规范化

区间变换

标准化

归一化

4.特征选择
  ----封装器法

循序特征选择

穷举特征选择

递归特征选择

----过滤器法

----嵌入法

5.特征抽取
  ----无监督特征抽取

主成分分析

因子分析

----有监督特征抽取

图像的本质

常见的图片其实分为两种,一种叫位图,另一种叫做矢量图。
位图的特点:

由像素点定义一放大会糊

文件体积较大

色彩表现丰富逼真
矢量图的特点:

超矢量定义

放太不模糊

文件体积较小

表现力差

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值