UFLDL教程——数据预处理

UFLDL tutorial:Unsupervised Feature Learning and Deep Learnin

  我们知道数据预处理在深度学习中起着重要作用,也是最耗时的部分。不同的处理方法直接影响着分析结果,因此也具有一定的经验性。这里介绍了相应的预处理pipeline。

数据归一化

   归一化的方法有很多种,具体的选择应该根据数据本身的特点来选择,教程中主要介绍了三种方法:简单缩放、逐样本均值消减(Per-example mean extraction)、特征标准化。
  在简单缩放中,我们的目的是通过对数据中每一个维度的值进行重新调节(这些维度可能是相互独立的),使得最终的数据向量落在[0,1]或者[-1,1]的区间内(根据数据情况而定)。这对后续的处理十分重要,因为很多默认参数都假定数据已被缩放到合理区间。在处理自然图像时,我们获得的像素值在[0,255]区间中,常用的处理是将这些像素值除以255,使它们缩放到[0,1]内。转化函数:x=(x-min)/(max-min)。
  逐样本均值消减,也称为移除直流分量,针对平稳的数据(即数据每一个维度的统计都满足相同分布,我们常用的医学影像灰度图是平稳的),可以考虑在每个样本上减去数据的统计平均值(逐样本计算),这样可以移除图像的平均亮度值,减少亮度对分析的影响。
  特征标准化指的是(独立的)使数据的每一个维度具有零均值和单位方差,这是归一化中最常见的方法并被广泛的使用(例如,在支持向量机(SVM)时,特征标准化常被建议用作预处理的一部分)。在实际应用中,特征标准化的具体做法是首先计算每一个维度上数据的均值(使用全体数据计算),之后在每一个维度上都减去该均值,下一步便是在数据的每一维度上除以该维度上数据的标准差。

PCA/ZCA白化

一幅图像最终成像会受环境照明强度、物体反射、拍摄相机等多因素的影响,为了能够

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目Value
电脑$1600
手机$12
导管$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文本居中第二列文本居右第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。1

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式


  1. 注脚的解释 ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理是数据科学中非常重要的一个环节,数据预处理的目的是对原始数据进行清洗、转换和集成,以便于进一步的分析和建模。数据预处理可以极大地影响最终分析和建模的结果,因此在数据预处理过程中需要仔细处理。 数据预处理进阶包括以下几个方面: 1. 数据清洗:数据清洗是数据预处理的第一步,主要是对原始数据进行检查、修复和删除不良数据,例如缺失值、异常值、重复值等。数据清洗可以提高数据质量,减少建模时的误差。 2. 特征选择:特征选择是选择最相关的特征,以便于进行建模和分析。特征选择可以减少特征的数量,提高模型的准确性和泛化能力。 3. 特征提取:特征提取是将原始数据转换为更具有代表性的特征。例如,将文本转换为词袋模型或者TF-IDF模型。特征提取可以提高模型的准确性和泛化能力。 4. 数据集成:数据集成是将来自不同数据源的数据合并成一个数据集,以便于进行分析。数据集成可以减少数据冗余,提高数据质量。 5. 数据变换:数据变换是将数据转换为适合分析的形式。例如,将连续的数值数据离散化,或者进行归一化。数据变换可以提高模型的准确性和泛化能力。 总之,数据预处理是数据科学中非常重要的一个环节。通过数据清洗、特征选择、特征提取、数据集成和数据变换等方法,可以提高数据质量,减少建模时的误差,提高模型的准确性和泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值