李沐老师机器学习斯坦福课程《数据清理》笔记

主要内容:怎么样对噪音比较多的数据进行数据的清理,然后得到一个干净的数据。

DATA ERRORS(数据错误)

机器学习对于这种错误的数据容忍度很高,所以即便给一个不对的数据,机器学习的训练仍然能够收敛

  • 数据分布的值不在正常的区间之内
  • 违背了一些基本的队则,比如id 必须是不一样的
  • 语法上的错误,比如价格就是美元为单位,语义上是有冲突的,或者有的他不应该有空格但是却又空格
    在这里插入图片描述
    箱线图的含义:中间的那条线是均值,中间有颜色的部分代表数据的25%到往上数据的75%,网上有一条线其实是比箱子的高度要高1.5倍的,代表一个网上的最高的界限,如果有的值在1.5倍线的外面就说明这些值是噪音,同理往下在1.5倍线的下面就代表这些值也是过于小的噪音值
    在这里插入图片描述
    以上是基于规则的检测,比如说每个公司都有一个纳税的号码EIN相当于公司的地址,但是这个纳税的EIN和你的所在的洲是对应的,如果你的公司的EIN就是地址对不上你的洲的位置,就说明你的信息是不对的。
    然后就是你可以自己规定一些规则,比如说就是公司如果有EIN的话你的电话号码是必须要有的,或者就是两幅图如果对应一个tag的话默认第一个就是原始的图,第二个图片就是可要可不要的,这些规则都是可以自己限制的。
    在这里插入图片描述
    比如说列的有些值如果是语言的话,有的是eng的话就把他转为english,或者如果数据中大部分是整数型的话就把非整数的转变为整数,或者直接丢掉非整数的部分。
    语义上的错误:
    比如说就是一个列的名字是国家,但是在国家的知识图谱里面发现国家是有属性首都的,但是比如斯坦福没有首都,就说明斯坦福放在国家的value中是错误的。

总结

  • 比较外的点,进行清理
  • 规则冲突
  • 模式冲突就是语法或则语义
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值