本文译至:http://japan.zdnet.com/article/35076390/2/
(1)高精度特征值的抽出
从传感器设备收集的原始数据,由于传感器的故障或异常导致的缺失插补,处理采样速度不同的多个传感器的数据同步,电源噪音或随机噪音的过滤,非意图的趋势成分的去除等要求,就算目的是解析简单的数据,复杂且费时的数据清理(数据の前处理)在许多场合仍是必要的。
数据清理任务精度不高的话,就不能取出好的特征值用于之后的机器学习或优化等等的分析。典型的数据清理的例子如图2,图3所示。
图2:数据的缺失,采样周期不同的两种数据(左),缺失位置的数据插补,以及,采样周期的同步(重新采取)的例子(右)
数据清理任务完成后,根据数据的种类(声音,图片,各种传感器数据等等),选择良好地表示该性质的特征值,信息量压缩后就能高效地解析数据,也能提高机器学习等的识别精度。
图4:各种特征值的例子:心电图数据的QRS(上)声音数据的MFCC(左) 图片数据的边缘(亮度的变化量)(右)