Introduction to Data-Centric AI 以数据为中心的人工智能导论



前言

本博客笔记来源于MIT的课程,Introduction to Data-Centric AI

传统的机器学习流程都是基于给定的数据集,通过选择不同的模型、调参、改进模型等方法,以获得在该数据集上任务的良好表现。但是在现实中,数据是不干净的,即使是如 ImageNet、Cifar-10 这样的大型公开数据集,里面也有不少错误标签,正所谓“garbage in, garbage out”

以数据为中心的人工智能(DCAI)研究的正是改进数据集的技术,虽然长期以来研究人员都会通过一些试验发现数据集中的不足并进行修改,但 DCAI 认为数据的改进是一门系统工程学科


一、Data-Centric AI vs. Model-Centric AI

Model-Centric AI(基于模型的人工智能):

  • 给定一个数据集,目标是构建表现最优的模型
  • 通过改进模型,以提升模型在某类任务上的表现

Data-Centric AI(基于数据的人工智能):

  • 给定一个数据集,目标是改进训练集的质量
  • 通过系统/算法来改进数据集,以提升模型在某类任务上的表现

基于数据的人工智能,有以下的方法:

  • 异常值检测和去除(处理数据集中的异常示例)
  • 错误检测和纠正(处理数据集中不正确的值/标签)
  • 建立共识(从许多人工注释中确定真相)
  • 数据增强(向数据添加示例以编码先验知识)
  • 特征工程和选择(决定数据的表示方式)
  • 主动学习(选择信息最丰富的数据进行下一步标记)
  • 课程学习(将数据集中的示例从最简单到最难排序)

二、Label Errors and Confident Learning

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值