二项分布、泊松分布、指数分布、zlpf分布、多项式、狄利克雷分布

觉得有些东西还是不记不行,年纪大了,不能理解了就以为自己记住了,所以在这里记下关于泊松分布、二项分布、zlpf分布、狄利克雷分布的知识

 

研究这个的起因是研究退票的分布,即用户每天一次性退票1张、2张、3张……n张票的人数。

由于之前在这没有很深入的研究过,所以一开始认为会是正态分布(虽然这个“认为”很白痴),但是正态的对称轴找不到,如果真的要找,一定是一次性退票1张的时候是峰值,但是对应的曲线怎么看都不像是正态分布。

所以在接下来认为去尝试多项式分布和指数分布,多项式分布其实和正态分布一样,从曲线形态上就不符合图示曲线,所以稍作尝试就放弃了,指数分布倒是对于该曲线拟合的不错,但是我这人做事比较较真,首先想到的是为什么是指数分布,原理是什么,于是上网搜索相关资料,找到了如下两篇博客,来自同一位作者的:

https://blog.csdn.net/ccnt_2012/article/details/81114920

https://blog.csdn.net/ccnt_2012/article/details/89875865

这两篇博客写的非常好,深入浅出的讲了泊松分布和指数分布的背景和推导思路,有兴趣的同学可以查看这两篇博客,作者写的很清楚,具体我就不在这里赘述。

       但是这个问题并不适用与我提出来的问题,即这个退票量的分布并不服从泊松分布,而且也无法从原问题抽象到指数分布的场景,于是我继续探索,终于找到了zipf分布,即齐普夫定律,也叫长尾分布,齐普夫定律和前面泊松分布&&指数分布的推导不同,它是经验性的结论,来源于nlp问题,可以推广到其他的类似的问题,它描述的是在一个集合,比如词汇集合里,在样本集里出现的次数从高到低排序,那么序号乘以对应的值大约是一个常数,公式是P(r)=C/r^\alpha。对两边取对数,得到log(P(r))=log(C)-\alpha \cdot log(r),即对变量和目标分别做对数后,呈现的是线性关系。所以很多类似问题都可以假定其服从zipf分布,从而向前推进问题。

      这个疑问解决之后,举处理在研究这个问题里的一些衍生问题,比如共轭先验分布,本中将会在下一篇博客里介绍这个知识。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值