机器学习,说白了就是对大数据进行处理及分析。这就对数据的质量提出了一定的要求,在进行算法实现之前,要进行数据清理。
数据清理包括:
1,分析数据,明确需求和从数据中得到的特征信息;
2,缺失值处理,现实中数据并不都是完备的,
3,异常值处理,判别异常并删除异常
4,去重处理,设计到哈希去重和set方法去重;
5,噪音处理,设计到滤波方法,傅里叶变换,短时傅里叶,fir,irr滤波器,小波滤波等等;
6,数据文件处理,包括文件转码,空格分词等
机器学习,说白了就是对大数据进行处理及分析。这就对数据的质量提出了一定的要求,在进行算法实现之前,要进行数据清理。
数据清理包括:
1,分析数据,明确需求和从数据中得到的特征信息;
2,缺失值处理,现实中数据并不都是完备的,
3,异常值处理,判别异常并删除异常
4,去重处理,设计到哈希去重和set方法去重;
5,噪音处理,设计到滤波方法,傅里叶变换,短时傅里叶,fir,irr滤波器,小波滤波等等;
6,数据文件处理,包括文件转码,空格分词等