[DA] 数据分析需要的一些概率论知识

10人阅读 评论(0) 收藏 举报
分类:

1. 方差

σ2=(Xμ)2N

2. 协方差

Cov(X,Y)=E[(XE(X))(YE(Y))]=E[XY]E[X]E[Y]
协方差就是看两个变量是否正负相关,也就是数值上变化是否同或反向.

3. 算数平均数

=x1+x2+...+xNN

4. 几何平均数

=(x1x2...xN)1N

5. 分位值

用一个例子来分析:
A=【65 23 55 78 98 54 88 90 33 48 91 84】,计算他的25分位.
先排序, 12个数有11个间隔,每个四分位间11/4=2.75个数, 第1个四分位数为上面12个数中的第1+2.75=3.75个数, 指第3个数对应的值48及第3个数与第4个数之间的0.75位置处,即:48+(0.75)*(54-48)=52.5 (52.5为25分位值)。

6. 双峰数据

这里写图片描述

7. 长尾数据

这里写图片描述
在追求利润最大化的经济利益驱动之下,更多企业注重需求曲线的头部,却忽视尾部,结果,实际形成了企业之间对头部的“红海”之争,而对蓝色所代表的更加广阔的“蓝海”市场,却有忽略之嫌。

8. 假设检验

假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法.
具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。

9. 期望迭代法则

E[E(X|Y)]=E[X]

10. 贝叶斯原理

见我的这篇博客.

11. 置信区间

本节内容参考自这篇博客.
为什么要引入区间估计: 总体的期望是客观存在不会变的, 实际上均值等于期望的概率是0. 所以说, 以点估点是不准确的, 有必要引入区间估计.
举个例子, 你测试50m跑的时间, 测了十次, 均值是7s, 但是7s肯定不是你跑50m的时间期望, 因为你再跑10次, 均值可能是6.8s. 因此, 描述你跑50m的时间, 用[6.5, 7.5]似乎是个更好的方式. 注意这个区间不能太大, 太大了别人就不相信了, 比如你说你跑50m的时间在[1, 10]的范围内, 肯定没人信, 因为几乎没有人能在5s内跑完50m.
如何理解95%的置信区间[6.5, 7.5]:
[错误的理解] 你跑了100次50m, 有95次所用的时间在[6.5, 7.5]的范围内.
[正确的理解] 一天跑10次50m并计算均值, 你连续跑了100天, 有95天的均值被包含在[6.5, 7.5]的范围内.
一言以蔽之: 样本的均值有T%的可能性落在区间[M, N]内.

查看评论

开发人员需要掌握的HTML和CSS知识

作为一个软件开发人员,需要掌握的HTML和CSS的知识。
  • 2015年04月11日 21:54

机器学习预备知识之概率论(上)

机器学习必需的概率论知识
  • sky_walker85
  • sky_walker85
  • 2014-11-15 21:27:07
  • 3958

Machine Learning1——机器学习关于数据分析和概率论和线性代数及矩阵的知识

1:数据分析: (1)常数e:自然常数e就是lim(1+1/x)^x,x->0,其值约为2.71828,,是一个无限不循环数。 (2)Taylor: 泰勒公式(Taylor's formula) ...
  • zhouguangfei0717
  • zhouguangfei0717
  • 2017-08-09 16:15:46
  • 684

数据分析师必须掌握的完整知识结构

摘要:作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 在互联网高速发展的今天,大数...
  • huizhejian
  • huizhejian
  • 2015-10-29 16:56:14
  • 1292

机器学习中概率论知识复习

机器学习先验知识概率论部分
  • u012566895
  • u012566895
  • 2016-05-05 11:23:54
  • 7499

数据分析概率及统计学基础

一.数据分析概述 1. 数据分析的概念 数据分析就是分析数据,从一大堆数据中提取你想要的信息。比较专业的回答:数据分析是有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。...
  • back_to_dream
  • back_to_dream
  • 2016-05-10 13:50:54
  • 9406

数据分析师需要学习的知识

1、懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。 2、懂管理。一...
  • chennade1
  • chennade1
  • 2016-10-24 22:23:47
  • 382

概率论与数理统计重要知识体系

概率论与数理统计 复习思路: 1.独立随机事件的概率(目标事件可能情况/总的可能情况,排列组合)(贝叶斯公式及全概率公式) 2.典型的离散分布(二项分布,几何分布,泊松分布),概率公式及其期望方...
  • cdjchuangzao
  • cdjchuangzao
  • 2016-04-09 10:57:06
  • 1297

超全整理!Python数据分析知识体系

自从1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用Python进行科学计...
  • qq_22194911
  • qq_22194911
  • 2017-05-06 19:16:43
  • 851

数据挖掘中所需的概率论与数理统计知识——上

导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过...
  • Alimisu
  • Alimisu
  • 2016-07-12 13:28:27
  • 2219
    个人资料
    持之以恒
    等级:
    访问量: 4283
    积分: 379
    排名: 20万+
    文章分类
    文章存档
    最新评论