目录
前面笔者和大家讨论了数据分析的基本应用
【实战技能】数据分析的基本应用(一)_苹果二的博客-CSDN博客
今天继续来讨论。
1. 如何证伪?如何从大量备选答案里选出否定性最小的假设?
当我们做预测时,我们要做假设检验,也就是我们从众多假设里寻找最合理的假设。如果选择看上去最可信的第一个假设,对其他假设不做任何处理,则称为满意法。相反,当我们剔除无法证实的假设,则称为证伪。证伪法让人们对各种假设感觉更敏锐,而不会一味地坚持某个假设,忽略了其他的反面证据所含有的重要特征。 当然,并非所有假设都一定能被证伪,比如,某些证据可能对假设不利,却无法推翻假设。
如何来剔除假设呢?
可以将各种假设和证据相比较,挑出最可信任的一种办法么。如果数据不全,我不了解一些非常重要的信息,那么,根据所知情况选择假设就可以得出错误的结论。
简单地罗列所有的假设,让决策者来选择。这样太没有数据分析师应有的责任心了,只是做了数据传递工作。
评级假设,根据不利证据的多少来排列顺序。不利证据越少的假设排在越前面。当我们排除了肯定不成立的假设时,我们能借助证据找出最强的假设。因为证据能够帮助我们按照强弱程度对假设进行排列,也就是具有诊断性了。诊断性是证据所具有的一种功能,能够帮助我们评估所考虑的假设的相对似然。关于似然性,请大家参考笔者写的另一篇文章【趣说算法】从儿童节和小朋友分糖果来解释最大期望算法.
评估各种假设的相对强度,证据和数据就具有诊断性。我们用+号表示证据支持假设,-号表示证据不支持假设。大家可以参考这个例子。
图片来源:《深入浅出数据分析》
2. 如何确定事件发生的概率?
举例来说,如果不幸甲醛和苯中毒,那么得白血病的概率是多大呢?这样需要用到贝叶斯公式了。
P(患白血病|甲醛和苯中毒)这个符号表示在甲醛和苯中毒的前提下,患白血病的概率。用A表示患白血病,A’表示不患白血病, 用B表示甲醛和苯中毒,公式如下
P(甲醛和苯中毒|患白血病)即 P(B|A)这个符号表示在患白血病的前提下,甲醛和苯中毒的概率 ,P(甲醛和苯中毒|患白血病')即 P(B|A')这个符号表示在未患白血病的前提下,甲醛和苯中毒的概率 ,P(患白血病)即P(A),患白血病的概率。如果我们能知道以上的概率值,就可以求出人们不幸患白血病的概率。
3. 如何利用标准偏差评估数据分布?
先来说说主观概率,主观概率就是用一个数字形式的概率来表示自己对某事的确认程度。确定主观概率,需要根据规律进行分析,有很多孤立事件,缺乏从前在相同条件下发生过事件的可靠数据。可以采用主观概率的方法。例如笔者通常会这么预测,那些诚信并且有较高管理水平、有良好市场资源或者开拓市场能力的以及愿意投入时间、金钱和人力做好产品的团队成功的概率是80%,相反,笔者预测,那些不诚信且管理水平较低、只依赖市场资源、不投入时间、金钱和人力做产品的团队成功的概率是20%。笔者用这种方法帮助自己抓住问题焦点,以便解决问题。
如果能够知道主观概率,选择贝叶斯公式,可以把新信息整合到主观概率结构中,也就是说利用贝叶斯公式修正主观概率,也就是在假设成立的条件下,计算证据出现的概率。
4. 如何利用既不完整也不确定的信息做出决策?
很多时候,我们苦于得不到数据,因为人们生活中大部分思维活动并非有最理性的方式展开,根据经验,基于不完整也不确定的信息做出决策。
好吧,前面说到室内空气质量,我们来看看,可以找到符合民用建筑空气检测标准的儿童活动场所吗?选取一两个变量,根据变量对整个系统作出结论,由此评价工作成效,这就是启发法。启发法是一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。在心理学里,一种更便于理解的属性代替一种难解的令人困惑的属性,被称为启发法,心理学家发现,人们时刻在使用认知启发法。由于过多的数据在吸引人们的注意力,人们必须凭经验做决定。来,做个图,用快省树(fast and frugal trees)描述一下启发法,分析分析前面我提出的问题。
欢迎留言,一起讨论数据分析。