AI达人训练营|数据获取与处理

最新推荐文章于 2023-05-11 20:15:16 发布

布唧怪

最新推荐文章于 2023-05-11 20:15:16 发布

阅读量249

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/apple_53658091/article/details/119222920

版权

1.数据集的来源

1.1 Kaggle

House Prices-Advanced Regression Techniques 预测销售价格

Cat and Dog 猫狗分类

Machine Learning from Disaster 预测泰坦尼克号的生存情况并熟悉机器学习基础知识

1.2 天池

Barley Remote Sensing Dataset大麦遥感检测数据集遥感影像分割

耶鲁人脸数据库目标检测任务(人脸检测)

1.3 DataFountain

花卉分类数据集图像分类

1.4 其他常用的数据集官网

科大讯飞官网

2.图片的预处理方法：

标准化：中心化=去均值：

将各个维度中心化到0

目的是加快收敛速度，在某些激活函数（）上表现较好

归一化=除以标准差：

将各个维度的方差标准化处于[-1,1]之间

目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

归一化方法：

1.min-max标准化（Min-MaxNormolization）

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

2.Z-score标准化（0-1标准化）方法

这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。

转化函数为：

（μ为均值，σ为标准差，σ2为方差）

CV中的数据增强：

随机旋转

随机水平或者重直翻转

缩放

剪裁

平移

调整亮度、对比度、饱和度、色差等等

注入噪声

基于生成对抗网络GAN做数搪增强AutoAugment等

纯数据处理完整流程

数据预处理与特征工程

1.感知数据

----初步了解数据

----记录和特征的数量特征的名称

----抽样了解记录中的数值特点描述性统计结果

----特征类型

----与相关知识领域数据结合，特征融合

2.数据清理

----转换数据类型

----处理缺失数据

----处理离群数据

3.特征变换

----特征数值化

----特征二值化[张1]

----OneHot编码[张2]

----特征离散化特征

----规范化(包括正则化[张3] 、标准化、归一化)

区间变换

标准化

归一化

4.特征选择

----封装器法

循序特征选择

穷举特征选择

递归特征选择

----过滤器法

----嵌入法

5.特征抽取

----无监督特征抽取

主成分分析

因子分析

----有监督特征抽取

拓展知识：皮尔森系数[张4]

COCO格式：

VOC格式：

[张1]二值化（英语：Thresholding）是图像分割的一种最简单的方法。二值化可以把灰度图像转换成二值图像。把大于某个临界灰度值的像素灰度设为灰度极大值，把小于这个值的像素灰度设为灰度极小值，从而实现二值化。

例如熊猫头案例中，对照片中人脸就利用了二值化取得了人脸的黑色轮廓

[张3]在求解最优化问题中，调节拟合程度的参数一般称为正则项，越大表明欠拟合，越小表明过拟合

为了解决过拟合问题，通常有两种方法，第一是减小样本的特征（即维度），第二是正则化（又称为惩罚penalty）

正则化的一般形式是在整个平均损失函数的最后增加一个正则项（L2范数正则化，也有其他形式的正则化，作用不同）

正则项越大表明惩罚力度越大，等于0表示不做惩罚。

正则项越小，惩罚力度越小，极端为正则项为0，则会造成过拟合问题；正则化越大，惩罚力度越大，则容易出现欠拟合问题。

————————————————

[张4]皮尔森相关系数是用来反应俩变量之间相似程度的统计量，在机器学习中可以用来计算特征与类别间的相似度，即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。 Pearson系数的取值范围为[-1,1]，当值为负时，为负相关，当值为正时，为正相关，绝对值越大，则正/负相关的程度越大。若数据无重复值，且两个变量完全单调相关时，spearman相关系数为+1或-1。当两个变量独立时相关系统为0，但反之不成立。

用Corr()函数即可，(保证行相同)。

公式如下:

当两个变量的标准差都不为零时，相关系数才有定义，Pearson相关系数适用于：

(1)、两个变量之间是线性关系，都是连续数据。

(2)、两个变量的总体是正态分布，或接近正态的单峰分布。

(3)、两个变量的观测值是成对的，每对观测值之间相互独立

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
AI达人训练营|数据获取与处理

1.数据集的来源1.1 KaggleHouse Prices-Advanced Regression Techniques 预测销售价格Cat and Dog 猫狗分类Machine Learning from Disaster 预测泰坦尼克号的生存情况并熟悉机器学习基础知识1.2 天池Barley Remote Sensing Dataset大麦遥感检测数据集遥感影像分割耶鲁人脸数据库 ...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。