开机时间排名——一个正态分布的应用的案例

本文通过开机时间的排名,展示了正态分布如何在实际案例中应用,探讨了数据分布的规律和特点。
摘要由CSDN通过智能技术生成

    原文链接:http://www.datastudy.cc/to/37

     觉得很有用,但是用不上。

     这个肯定是很多人对《统计学》这一门课程的直观感觉,如果这货一点用处都没有,那是不可能的,大学的老师又不傻,没用的课程不会做为基础课程开设。但是你说它有用在哪里,又没有办法举例出来,所以就用不上了。

     坦白来讲,我不想开设一门所谓的《傻瓜都能学懂统计学》的类似课程,因为《统计学》是一门高投入,高回报的课程,也就是我们需要对它投入一定的热情和时间去学习,去思考,它才能对你有所回应,并且,非常强烈地回应的一门科学。打个比喻,统计学就像一个高冷的美人,你想获得美人的青睐,就必须绞尽脑汁,有所付出。

     在这里,我给大家使用一个案例,一个大家在日常生活中经常看到,但是却可能没有深入去思考的案例,来讲解一下统计学的应用场景,这个场景涉及到的一个理论就是正态分布理论。

     下面两个图案你们肯定非常熟悉,对,就是360杀毒软件的开机耗时页面。


     大家脑洞大开,想象一下,这个功能软件工程师是怎么设计的呢?

     你可能会觉得它是这样子实现的:
    
     1、收集所有用户的开机时间的数据,排好序放在一个数据库中;
     2、然后根据你的开机时间,找出你的排名,除以总用户数,就是你击败电脑占比。

     是的,这样子设计排名算法是非常合理,但是有以下几个问题:
    
     1、你电脑开机的时候,没有连接网络怎么办呢?那就无法请求到所有的用户的数据了对吧。
     2、就算所有的用户的数据,已经下载到你本地,根据不完全统计,360的用户数,估计也超过10亿了吧,上10亿行的数据进行比较统计,放在开机这个地方,恐怕不妥,而且做过软件开发的人都知道,这种同步数据的方式,非常蛋疼。

     那么我觉得它是怎么设计的呢?

     我会这样子设计,首先,收集尽量多的用户的开机时间,然后,查看时间的分布如何。(开机时间数据链接: http://pan.baidu.com/s/1jGu8ZXk 密码: epah)

 data <- read.csv("D:\\data\\20150930\\startTime.csv")
 mean(data[, 1])
 sd(data[, 1])
 hist(
   data[, 1], prob=TRUE,
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值