小样本分析

近期无事,只好思考一下人生,打发一下时间。谁叫工作的最大用处就是不让自己无聊呢?

问题提出:经常有人说当样本到10万级别时就和全集统计结果基本一样了云云。鄙人愚钝,想问:第一这是怎么证明的,“基本一样”隐含的不是严格意义上的一样又意味着多少的差距?第二样本集只有几个几十个怎么办?请读者先恕我不顾经验之谈之罪;接下来让我们一起从数学出发,真正的面对以上问题。

 

小样本问题一直存在,只是被忽略:数据挖掘中面对小样本集合的情形并不少见。比如基于统计的自然语言处理中考虑一个词A的后面出现词B的概率时,如果词A比较偏僻,可能统计了千万篇文章也就那么五六次,这个时候算出的词B的概率可信吗。在协同过滤中,考虑两个人的相似性时,如果一个人只买了1个产品,另一个只买了2个,假设有一个相同,根据距离公式(常见的为向量余弦)算出相似度可信吗?我们往往都会采取一定的措施来优化(削弱)样本较小的时候计算的结果,常见的就是分母加上一个常量(样本小时,明显削弱原计算结果,样本大时则几乎不影响)。这是一种非常跛足的处理方法(实际中还是非常有效的),因为从数学上根本就没任何依据。

投石问路:我们先从简单问题开始。有一个袋子里面有2个球,随机拿出一个来,是红球(不放回),那么再拿出一个,这个球还是红球的概率是多少?请读者们仔细想想怎么回答这个概率问题。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值