项目实训@SDU

本次项目实训我所负责的部分是未来12小时各各站点的AQI以及其他污染物的预测。通过上学期的机器学习的课程,我认为在设计机器学习相关的算法时,数据的处理显得比较重要。
​ 现如今,机器学习在越来越多的领域中凸显出其不可替代的重要性,人们开始从各领域渗透机器学习的典型案例,希望其大规模投入使用,而好的训练结果与坏的训练结果的区别并不在于你的模型好坏,而往往是取决于你拥有多少、多好的数据来训练你的模型。这就是为什么现在很多的互联网公司(诸如BAT、Google、Amazon)十分注重机器学习中大数据来源这一领域的原因。

建立成功的AI / ML模型有3个方面:算法,数据和计算。虽然建立准确的算法和计算技能的应用是过程的一部分,但一个优秀的机器学习项目,从编写模型到落地测试,投入使用,这期间都是以使用正确的数据集为基础, 无论是从自动驾驶汽车等基于AI的大规模技术革命还是到构建非常简单的算法,我们都需要正确格式的数据。

有资料显示,数据科学家80%以上的时间都花在准备数据上。尽管这是一个好兆头,但考虑到随着良好的数据进入建立分析模型,准确的人会得到输出。但是,理想情况下,数据科学家应该将更多的时间花在与数据交互,高级分析,培训和评估模型以及部署到生产上。只有20%的时间进入流程的主要部分。为了克服时间限制,组织需要利用用于数据工程,标记和准备的专家解决方案来减少在清理,扩充,标记和丰富数据上花费的时间(取决于项目的复杂性)。这就意味着,对于一个机器学习模型而言,很大程度上,输出的质量取决于输入的质量。

​ 准备好的数据也是一门值得研究的学问,数据是每个机器学习项目的宝贵资源。但是,如果我们不进一步分析,它可能失去应有的价值。 从广义上讲,正确格式可以用于制定明智的业务决策,执行成功的销售和营销活动等。但是,这些不能仅用原始数据来实现。数据只有经过清洗,贴标签,注释和准备后,才能成为宝贵的资源。数据经过适应性测试的各个阶段后,便最终具备进行进一步处理的资格。处理可以采用多种方法-将数据提取到BI工具,CRM数据库,开发用于分析模型的算法,数据管理工具等。无论我们是构建自己的模型还是从第三方那里获得模型,都必须确保标记,扩充,干净,结构化的整个过程背后的数据都经过标记,概括,即数据准备。正如维基百科中定义的,数据准备是将原始数据(可能来自不同的数据源)操纵(或预处理)为可以方便,准确地进行分析的形式的行为,例如出于商业目的。数据准备是数据分析项目的第一步,可以包括许多离散任务,例如加载数据或数据摄取,数据融合,数据清理,数据扩充和数据交付。

下面是我在处理数据时的一些操作

​ 数据提取:数据工作流程的第一阶段是提取过程,通常是从非结构化源(如网页,PDF文档,假脱机文件,电子邮件等)中检索数据。部署从网络中提取信息的过程称为网络刮。

​ 数据概要分析:检查现有数据以提高质量并通过格式带来结构的过程。这有助于评估质量和对特定标准的一致性。当数据集不平衡且配置不当时,大多数机器学习模型将无法正常工作。

​ 数据清理:可确保数据干净,全面,无错误,并提供准确的信息,因为它不仅可以检测文本和数字的异常值,还可以检测图像中无关的像素。您可以消除偏见和过时的信息,以确保您的数据是干净的。

​ 数据转换:对数据进行转换以使其均匀。地址,名称和其他字段类型之类的数据以不同的格式表示,数据转换有助于对此进行标准化和规范化。

​ 数据匿名化:从数据集中删除或加密个人信息以保护隐私的过程。

​ 数据扩充:用于使可用于训练模型的数据多样化。在不提取新信息的情况下引入其他信息包括裁剪和填充以训练神经网络。

​ 数据采样:识别大型数据集中的代表性子集,以分析和处理数据。

​ 特征工程:将机器学习模型分类为好模型还是坏模型的主要决定因素。为了提高模型的准确性,您可以将数据集合并以将其合并为一个。

但是并不是所有的数据都是有用的,换种方式来说,并不是所有的数据都是对人们有利的,所以在我们获取数据以及提供数据的时候,要注意一些个人隐私的保护,以及一些必要的遮掩。否则会造成一些,数据歧视,隐私泄露,伦理问题等巨大影响

​ 但其实这些是当前存在且常见的现象,我们提到"bias"的时候,都是指日常生活中针对种族性别收入等社会属性的偏见、歧视。公众媒体的文章都着重这一方面。但是在数学和科学领域,bias是一个中性词,特指数据处理不合理,或者选错数据来源。ML里面这个风险更大,bias可能会导致错误结果。大家需要注意bias不要真的演化成社会歧视,或者导致损失一些商业机会和金钱,而这些就需要清楚上文中提到的"数据工程"的具体含义,并落实好每一个数据处理的步骤。

​ 当然,我们都喜欢ML(Machine Learning)能够真的为人类造福,有人说,通过解释电脑学习的模式中的错误,就可以改进技术来消除人的偏见。瑞士 AI 实验室 Dalle Molle 人工智能研究所的科学主任 Jürgen Schmidhuber 说,人工智能系统在学习时会犯错。事实上这是肯定的,所以称之为“学习”。他指出,电脑只会从你给出的数据中学习。“你不能消除所有这些偏见的来源,就像你不能消除人类中的偏见来源,”。我觉得我们应该首先承认问题,然后确保使用好的数据,并把算法设计好;提出正确的问题至关重要,或者记住程序员的一句老话:“垃圾进,垃圾出(Garbage in, garbage out)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值