处理数据平滑的简单想法

   在进行数据统计的时候会遇到数据稀疏问题,导致统计结果并不理想。

   考虑第一种情况:比如有些产品评价数就1个,而且是好评,因此它的好评率就是1。可悲的是另一些产品销售得好,评价数也很多,而且好评数很多,但即很难达到1,这样的结果是不公平的。由于这种评价数很少的数据偶然性太大,对于统计结果来说效果不是太有意义。为了解决这种数据问题,这时候可以用些简单的方法来修改数据。比如可以将分母即总评价数加一个比较小的数。比如说1,这样那些评价总数少的产品好评率就会比原始结果小很多,而对于总评价数较多的产品,影响却是很小的。当然也可以设一个阈值,小于一定评价数直接为0。不过我还是认为开始的做法更贴切。

    考虑另一种情况。有这样一堆0-1的小数. 1,0.9,0.5,0.1,0.01,0.002.0005,......

    我们希望它们之间的差别控制在某个范围之内。这样的考虑出发点的是不要让某些数值比较大的数据把较小的其它因素给忽略掉,但又能保持原有的大小关系。这时候可以考虑让数据平滑。比如可以取对数。它的特点是,X坐标越大,Y坐标增加的越慢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值