观点一,如上图所示,数据是信息的载体,信息是数据的本质
观点二,任何对于数据的分析和挖掘的做法,实质上都是对于信息的加工和转换。
观点三,在将信息记录成数据的过程中,可能产生信息的损失。
观点四,在数据的传输过程中可能产生数据的损失,同时也就是信息的损失。
观点五,在从数据还原成信息的过程中很可能产生理解的偏差,造成信息的损失。
如上图所示,数据分析挖掘的过程也就是从信息A到信息B*的过程;
信息A记录成数据A,数据A经过传输变成数据A*,可能不再等于数据A;
数据A*经过清洗过程变成信息A*,信息A*与信息A的差异也就是数据清洗要解决的问题。数据清洗应该尽量保证它们一致。
信息A*经历转换(可能是汇总、分类、聚类、机器学习等)变成信息B;
信息B被记录成数据B;
数据B经过传输给到数据消费方,变成数据B*,同样有可能与数据B不同。
数据B*被数据消费方理解为信息B*,这与原信息B之间有可能存在不同或者误解。
这就是从宏观上看的一个流程。