[DA] 数据分析需要的一些概率论知识

1. 方差

σ2=(Xμ)2N σ 2 = ∑ ( X − μ ) 2 N

2. 协方差

Cov(X,Y)=E[(XE(X))(YE(Y))]=E[XY]E[X]E[Y] C o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] = E [ X Y ] − E [ X ] E [ Y ]
协方差就是看两个变量是否正负相关,也就是数值上变化是否同或反向.

3. 算数平均数

=x1+x2+...+xNN = x 1 + x 2 + . . . + x N N

4. 几何平均数

=(x1x2...xN)1N = ( x 1 ∗ x 2 ∗ . . . ∗ x N ) 1 N

5. 分位值

用一个例子来分析:
A=【65 23 55 78 98 54 88 90 33 48 91 84】,计算他的25分位.
先排序, 12个数有11个间隔,每个四分位间11/4=2.75个数, 第1个四分位数为上面12个数中的第1+2.75=3.75个数, 指第3个数对应的值48及第3个数与第4个数之间的0.75位置处,即:48+(0.75)*(54-48)=52.5 (52.5为25分位值)。

6. 双峰数据

这里写图片描述

7. 长尾数据

这里写图片描述
在追求利润最大化的经济利益驱动之下,更多企业注重需求曲线的头部,却忽视尾部,结果,实际形成了企业之间对头部的“红海”之争,而对蓝色所代表的更加广阔的“蓝海”市场,却有忽略之嫌。

8. 假设检验

假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法.
具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。

9. 期望迭代法则

E[E(X|Y)]=E[X] E [ E ( X | Y ) ] = E [ X ]

10. 贝叶斯原理

见我的这篇博客.

11. 置信区间

本节内容参考自这篇博客.
为什么要引入区间估计: 总体的期望是客观存在不会变的, 实际上均值等于期望的概率是0. 所以说, 以点估点是不准确的, 有必要引入区间估计.
举个例子, 你测试50m跑的时间, 测了十次, 均值是7s, 但是7s肯定不是你跑50m的时间期望, 因为你再跑10次, 均值可能是6.8s. 因此, 描述你跑50m的时间, 用[6.5, 7.5]似乎是个更好的方式. 注意这个区间不能太大, 太大了别人就不相信了, 比如你说你跑50m的时间在[1, 10]的范围内, 肯定没人信, 因为几乎没有人能在5s内跑完50m.
如何理解95%的置信区间[6.5, 7.5]:
[错误的理解] 你跑了100次50m, 有95次所用的时间在[6.5, 7.5]的范围内.
[正确的理解] 一天跑10次50m并计算均值, 你连续跑了100天, 有95天的均值被包含在[6.5, 7.5]的范围内.
一言以蔽之: 样本的均值有T%的可能性落在区间[M, N]内.

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 学习数据分析需要以下知识: 1. 数学基础,包括线性代数、微积分和统计学等; 2. 编程语言,例如Python或R; 3. 数据库管理和SQL语言; 4. 数据可视化工具,例如Tableau或PowerBI; 5. 机器学习算法和深度学习基础知识; 6. 行业领域知识,例如金融、医疗或零售等。 掌握这些知识可以让你更好地处理和分析数据,并从中发现有价值的信息和见解。 ### 回答2: 学习数据分析需要掌握一定的数学知识。首先,需要了解概率论和统计学,以便能够处理数据集并进行推理和推断。其次,线性代数也是必不可少的,用于处理矩阵和向量以及其在数据分析中的应用。另外,微积分也是必要的,因为它有助于理解函数和导数,对于构建和优化模型也非常重要。 除此之外,学习数据分析需要具备编程技能。掌握编程语言如Python或R等,以便能够处理大数据集、自动化数据处理和实现数据分析算法。此外,了解SQL语言以及数据库的基本原理也非常重要,用于从大型数据库中提取和处理数据。 数据预处理是数据分析的一个重要环节,所以掌握数据清洗和数据转换的技术也是必要的。数据清洗包括处理缺失值、异常值和重复值等,以确保数据的完整性和准确性。而数据转换则通过特征提取、特征选择和特征缩放等方法,将原始数据转换为可分析的形式。 此外,对于数据分析师来说,业务知识也是必不可少的。了解数据所涉及的行业、公司或组织的具体背景和需求,有助于更好地理解数据和提出有针对性的问题。 最后,良好的沟通和可视化能力也是学习数据分析必备的技能。能够将复杂的数据结果以简单明了的方式呈现给非专业人士,可以更好地用数据支持决策,并与团队成员和利益相关者进行有效的沟通和交流。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值