数据分析、数据挖掘的本质

观点一,如上图所示,数据是信息的载体,信息是数据的本质

观点二,任何对于数据的分析和挖掘的做法,实质上都是对于信息的加工和转换。

观点三,在将信息记录成数据的过程中,可能产生信息的损失。

观点四,在数据的传输过程中可能产生数据的损失,同时也就是信息的损失。

观点五,在从数据还原成信息的过程中很可能产生理解的偏差,造成信息的损失。




如上图所示,数据分析挖掘的过程也就是从信息A到信息B*的过程;

信息A记录成数据A,数据A经过传输变成数据A*,可能不再等于数据A;

数据A*经过清洗过程变成信息A*,信息A*与信息A的差异也就是数据清洗要解决的问题。数据清洗应该尽量保证它们一致。

信息A*经历转换(可能是汇总、分类、聚类、机器学习等)变成信息B;

信息B被记录成数据B;

数据B经过传输给到数据消费方,变成数据B*,同样有可能与数据B不同。

数据B*被数据消费方理解为信息B*,这与原信息B之间有可能存在不同或者误解。


这就是从宏观上看的一个流程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值