【实战技能】数据分析的基本应用(二)

目录

1. 如何证伪?如何从大量备选答案里选出否定性最小的假设?

2. 如何确定事件发生的概率?

3. 如何利用标准偏差评估数据分布?

4. 如何利用既不完整也不确定的信息做出决策?


前面笔者和大家讨论了数据分析的基本应用

【实战技能】数据分析的基本应用(一)_苹果二的博客-CSDN博客

今天继续来讨论。

1. 如何证伪?如何从大量备选答案里选出否定性最小的假设?

当我们做预测时,我们要做假设检验,也就是我们从众多假设里寻找最合理的假设。如果选择看上去最可信的第一个假设,对其他假设不做任何处理,则称为满意法。相反,当我们剔除无法证实的假设,则称为证伪。证伪法让人们对各种假设感觉更敏锐,而不会一味地坚持某个假设,忽略了其他的反面证据所含有的重要特征。 当然,并非所有假设都一定能被证伪,比如,某些证据可能对假设不利,却无法推翻假设。

如何来剔除假设呢?

可以将各种假设和证据相比较,挑出最可信任的一种办法么。如果数据不全,我不了解一些非常重要的信息,那么,根据所知情况选择假设就可以得出错误的结论。

简单地罗列所有的假设,让决策者来选择。这样太没有数据分析师应有的责任心了,只是做了数据传递工作。

评级假设,根据不利证据的多少来排列顺序。不利证据越少的假设排在越前面。当我们排除了肯定不成立的假设时,我们能借助证据找出最强的假设。因为证据能够帮助我们按照强弱程度对假设进行排列,也就是具有诊断性了。诊断性是证据所具有的一种功能,能够帮助我们评估所考虑的假设的相对似然。关于似然性,请大家参考笔者写的另一篇文章【趣说算法】从儿童节和小朋友分糖果来解释最大期望算法.

评估各种假设的相对强度,证据和数据就具有诊断性。我们用+号表示证据支持假设,-号表示证据不支持假设。大家可以参考这个例子。

 

图片来源:《深入浅出数据分析》

2. 如何确定事件发生的概率?

举例来说,如果不幸甲醛和苯中毒,那么得白血病的概率是多大呢?这样需要用到贝叶斯公式了。

P(患白血病|甲醛和苯中毒)这个符号表示在甲醛和苯中毒的前提下,患白血病的概率。用A表示患白血病,A’表示不患白血病, 用B表示甲醛和苯中毒,公式如下

 

P(甲醛和苯中毒|患白血病)即 P(B|A)这个符号表示在患白血病的前提下,甲醛和苯中毒的概率 ,P(甲醛和苯中毒|患白血病')即 P(B|A')这个符号表示在未患白血病的前提下,甲醛和苯中毒的概率 ,P(患白血病)即P(A),患白血病的概率。如果我们能知道以上的概率值,就可以求出人们不幸患白血病的概率。

3. 如何利用标准偏差评估数据分布?

先来说说主观概率,主观概率就是用一个数字形式的概率来表示自己对某事的确认程度。确定主观概率,需要根据规律进行分析,有很多孤立事件,缺乏从前在相同条件下发生过事件的可靠数据。可以采用主观概率的方法。例如笔者通常会这么预测,那些诚信并且有较高管理水平、有良好市场资源或者开拓市场能力的以及愿意投入时间、金钱和人力做好产品的团队成功的概率是80%,相反,笔者预测,那些不诚信且管理水平较低、只依赖市场资源、不投入时间、金钱和人力做产品的团队成功的概率是20%。笔者用这种方法帮助自己抓住问题焦点,以便解决问题。

如果能够知道主观概率,选择贝叶斯公式,可以把新信息整合到主观概率结构中,也就是说利用贝叶斯公式修正主观概率,也就是在假设成立的条件下,计算证据出现的概率。

4. 如何利用既不完整也不确定的信息做出决策?

很多时候,我们苦于得不到数据,因为人们生活中大部分思维活动并非有最理性的方式展开,根据经验,基于不完整也不确定的信息做出决策。

好吧,前面说到室内空气质量,我们来看看,可以找到符合民用建筑空气检测标准的儿童活动场所吗?选取一两个变量,根据变量对整个系统作出结论,由此评价工作成效,这就是启发法。启发法是一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。在心理学里,一种更便于理解的属性代替一种难解的令人困惑的属性,被称为启发法,心理学家发现,人们时刻在使用认知启发法。由于过多的数据在吸引人们的注意力,人们必须凭经验做决定。来,做个图,用快省树(fast and frugal trees)描述一下启发法,分析分析前面我提出的问题。

 欢迎留言,一起讨论数据分析。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值