机器学习模型的数据预处理和可视化

 

本文为 AI 研习社编译的技术博客,原标题 :

Data Pre-processing and Visualization for Machine Learning Models

作者 |* Natasha Sharma*

翻译 | Dddda、Gelel、AI小山 编辑 | 邓普斯•杰弗、约翰逊·李加薪

原文链接:

https://heartbeat.fritz.ai/data-preprocessing-and-visualization-implications-for-your-machine-learning-model-8dfbaaa51423

 

数据科学工程的目标是向那些仅对数据内在本质感兴趣的人展示这些数据的含义。要达到这个目标,数据科学家/机器学习工程师要遵循若干个步骤。对于更精确地建立机器学习模型来说,数据预处理(清洗,格式化,缩放,正规化)和多种图表的数据可视化是两个非常重要的步骤。

前言

此帖的目的在于解释这些方法以及它们的机器学习建模上的作用,并且讨论它们对于不同商业应用的影响。

我们将使用“巧克力糖”数据集(听起来味道不错吧?)。这个数据集包括巧克力等级,产地,可可粉百分比,以及所使用的豆子的种类的多寡和豆子的生产地。

数据集信息量巨大,我打赌,你们绝大多数都会想:我们到底要拿这些数据集干嘛?从中能获得什么样的信息?我们能对数据做很多事,但是针对目前这个练习,我们将用不同的的可视化工具,例如分布图,方框图,KDE,以及小提琴图等,来分析数据,并回答以下问题:

  1. 混合巧克力和纯巧克力的平均评分是多少?

  2. 哪个国家出产评价最高的巧克力糖?

  3. 在全部数据集(不同的数据点)中找出可可粉含量的分布规律。

在回答上述问题之前,我们需要做一些数据预处理工作:清洗,格式化等等,以便更清晰地呈现数据。

数据准备:清洗及格式化数据

数据处理流程起始于收集数据,终结于提交结果。整个过程说起来容易,做起来难。在其中的多个步骤里,数据预处理是最重要的步骤之一。

数据预处理本身就包含多个步骤,而且很多步骤取决于数据文件的类型,数据的本质,不同的取值类型,等等。

学习一下数据预处理

维基定义:数据预处理是一种数据挖掘技术,它是指把原始数据转换成可以理解的格式。真实世界 数据往往不完整,不一致,和/或缺乏一定的动态或趋势,并且很可能有错漏。数据预处 理是解决这些问题的一个有效手段。数据预处理整理原始数据,以便进一步处理。数据 预处理用于数据库驱动的应用,比如,客户关系管理和基于规则的应用(如神经网络)。

那么,到底是什么使得数据预处理在机器学习或其它数据科学领域变得如此重要呢?

数据预处理的重要性

举个简单的例子:一对夫妇去医院做孕检,夫妻双方都要做检查。检查结果出来后,医院宣布丈夫怀孕了。很奇怪,是吧?

我们可以由此想想机器学习的问题:分类。我们有一千多对夫妻的孕检数据,其中的60%,我们知道谁怀孕了,剩下的40%,我们需要从以往的数据里推测结果。我们假设,在这60%的案例里,有1%表明男人怀孕。

在机器学习建模时,如果我们没有做预处理,比如修正异常数据,处理缺失数据值,规整化,数据缩放,或者特征工程

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值