AI: 什么是机器学习的数据清洗(Data Cleaning)



数据清洗 (Data Cleaning)

为什么要数据清洗?:一颗老鼠屎也会破坏掉一整个大规模数据集

数据清洗要达到的目标是什么?:目标让模型更加泛化,让数据更体现其价值,最好能清洗出特征数据,从而让模型更精确

在这里插入图片描述

缩放特征值(Scaling)

将特征数据归一化处理,即转换数据集的数值范围(也叫标准化数据),

缩放是指将浮点特征值从自然范围(例如 100 到 900)转换为标准范围(例如 0 到 1 或 -1 到 +1)。
如果特征集包含多个特征,则缩放特征可以带来以下优势:

  • 帮助梯度下降法更快速地收敛。
  • 帮助避免“NaN 陷阱”。在这种陷阱中,模型中的一个数值变成
    NaN(例如,当某个值在训练期间超出浮点精确率限制时),并且模型中的所有其他数值最终也会因数学运算而变成 NaN。
  • 帮助模型为每个特征确定合适的权重。如果没有进行特征缩放,则模型会对范围较大的特征投入过多精力。

处理极端、离群/缺省值、去重等

处理错误数据、重复数据、残缺数据缺省补齐等

如何最大限度降低这些极端离群值的影响?

  • 对每个值取对数(对数缩放)
  • 限制最大/最小值
    在这里插入图片描述

数据分箱(Binning)

将特征值浮点数,分为几个范围,如32.3 32.5 为32-33范围,相应值为1
为了将纬度变为一项实用的预测指标,我们对纬度“分箱”
在这里插入图片描述

审查(Scrubbing)

我们假定用于训练和测试的所有数据都是值得信赖的。在现实生活中,数据集中的很多样本是不可靠的:

  • 遗漏值。 例如,有人忘记为某个房屋的年龄输入值。
  • 重复样本。 例如,服务器错误地将同一条记录上传了两次。
  • 不良标签。例如,有人错误地将一颗橡树的图片标记为枫树。
  • 不良特征值。 例如,有人输入了多余的位数,或者温度计被遗落在太阳底下。

直方图是一种用于可视化集合中数据的很好机制。此外,收集如下统计信息也会有所帮助:

  • 最大值和最小值
  • 均值和中间值
  • 标准偏差

了解数据

  • 记住预期的数据状态。
  • 确认数据是否满足这些预期(或者您可以解释为何数据不满足预期)。
  • 仔细检查训练数据是否与其他来源(例如信息中心)的数据一致。

在这里插入图片描述

博主热门文章推荐:

一篇读懂系列:

LoRa Mesh系列:

网络安全系列:

嵌入式开发系列:

AI / 机器学习系列:


  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: 人工智能(Artificial Intelligence,简称AI)是指通过计算机程序或机器设备来实现类似于人类智能的一种技术。它可以模拟人类的思维能力,例如理解自然语言、识别图像、决策推理等等。 机器学习(Machine Learning)是一种实现人工智能的方法,它是指让计算机通过大量的数据学习,从而改进其性能和表现的过程。机器学习通过训练数据来自动调整和优化算法,使其能够完成特定的任务。例如,可以通过机器学习来训练计算机自动识别图像中的物体或语音中的文字。 机器学习是实现人工智能的重要方法之一。通过机器学习算法,可以让计算机从海量的数据中自动发现规律和模式,从而实现更加准确和智能的决策和预测。 ### 回答2: 人工智能是一种模拟人类智能行为的技术,旨在使计算机能够执行需要智能思考或判断的任务。它使计算机具备识别、理解、学习和推理等能力,从而使其能够完成复杂的任务。 而机器学习人工智能的一个分支,它是通过使用算法和统计模型,使计算机能够从数据中学习和改进,而无需明确进行编程。机器学习的目标是通过训练模型来使计算机具备自主处理和解决问题的能力,而不是进行明确的指示。 人工智能机器学习有着密切的关系。首先,机器学习是实现人工智能的关键技术之一。通过机器学习,计算机可以从大量的数据中提取模式和规律,快速学习并改进自己的行为。 其次,人工智能机器学习相互促进发展。机器学习在实现人工智能的同时,不断为人工智能提供更多的数据和算法支持,使之更加智能和强大。而人工智能的应用场景也为机器学习提供了更多的实践和应用需求,推动了机器学习的发展和创新。 总结来说,人工智能是模拟人类智能行为的技术,而机器学习是实现人工智能的关键技术之一。它们相互依存,相互促进,共同推动了人工智能领域的快速发展和应用。 ### 回答3: 人工智能(Artificial Intelligence,简称AI)指的是模拟人的智能行为和思维的技术和系统。它的目标是使机器具备类似人类的智慧能力,能够感知、理解、学习、推理和决策。人工智能的研究领域包括机器视觉、自然语言处理、专家系统等。 机器学习(Machine Learning)是人工智能的一个重要分支,是通过让计算机根据大量数据和经验不断优化算法,从而使计算机自动提取数据的规律和模式,从而进行预测、分类、识别等任务。机器学习通过训练样本的学习可以提高算法的准确性和性能,并能够适应新的问题和数据。 人工智能机器学习之间存在密切关系。人工智能是一个更广泛的概念,指的是使计算机模拟人的智能,而机器学习是实现人工智能的一种方法和技术手段。机器学习人工智能的基础,通过机器学习算法,计算机能够从大量数据中学习,发现数据中隐藏的模式和规律,并能够自动调整算法以适应新的数据和问题。因此,机器学习是实现人工智能的核心技术之一。 总之,人工智能是一门研究如何使计算机具备智慧能力的学科,而机器学习则是实现人工智能的一种方法。他们之间互为补充,机器学习提供了实现人工智能的技术基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HowieXue

求打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值