主要内容:怎么样对噪音比较多的数据进行数据的清理,然后得到一个干净的数据。
DATA ERRORS(数据错误)
机器学习对于这种错误的数据容忍度很高,所以即便给一个不对的数据,机器学习的训练仍然能够收敛
- 数据分布的值不在正常的区间之内
- 违背了一些基本的队则,比如id 必须是不一样的
- 语法上的错误,比如价格就是美元为单位,语义上是有冲突的,或者有的他不应该有空格但是却又空格
箱线图的含义:中间的那条线是均值,中间有颜色的部分代表数据的25%到往上数据的75%,网上有一条线其实是比箱子的高度要高1.5倍的,代表一个网上的最高的界限,如果有的值在1.5倍线的外面就说明这些值是噪音,同理往下在1.5倍线的下面就代表这些值也是过于小的噪音值
以上是基于规则的检测,比如说每个公司都有一个纳税的号码EIN相当于公司的地址,但是这个纳税的EIN和你的所在的洲是对应的,如果你的公司的EIN就是地址对不上你的洲的位置,就说明你的信息是不对的。
然后就是你可以自己规定一些规则,比如说就是公司如果有EIN的话你的电话号码是必须要有的,或者就是两幅图如果对应一个tag的话默认第一个就是原始的图,第二个图片就是可要可不要的,这些规则都是可以自己限制的。
比如说列的有些值如果是语言的话,有的是eng的话就把他转为english,或者如果数据中大部分是整数型的话就把非整数的转变为整数,或者直接丢掉非整数的部分。
语义上的错误:
比如说就是一个列的名字是国家,但是在国家的知识图谱里面发现国家是有属性首都的,但是比如斯坦福没有首都,就说明斯坦福放在国家的value中是错误的。
总结
- 比较外的点,进行清理
- 规则冲突
- 模式冲突就是语法或则语义