autolisp统计相同元素个数_统计邦中的那些你需要知道的大咖

1,描述统计学

描述统计学的作用是用几个关键的数字来描述数据集的整体情况,在《深入浅出统计学》中,作者指出使用简化的数字来描述数据之后的规律既有优点也缺点,优点是能让人快速的了解大量数据后面的意义,得出需要的结论,而缺点就是忽略了真实的数据源,容易得出有失准确的结论。

尽管描述统计学是把双刃剑,但是其中几个重要的数据还是需要我们掌握

2,平均数

在LIVE 中强调的平均值就是书中学到的均值,而书中一直将均值定义为平均数中的一种,在之后的课程中希望能从书本找找到答案,均值计算方法是将数据集中的数值型数据*频数相加的和处以频数和,从图中的计算过程可以看出,均值是对异常值十分敏感的一个h衡量标准,在作为一组数据集的总结量时,对于数据的对称性有着一定的要求,否则容易误导受众得出错误的结论;

bb1c93739e91a758a3c6d9357ecf2316.png

3,四分位数

四分位数是我第一次在数据分析过程中接触的标准,四分位数的定义是将所要描述的数据集分成四等分的那个数据的值,若数据集的个数为偶数,那么上四分位数为3n/4的那个数和它下面的那个数的均值,下四分位数为n/4的bn那个数和他下面的那个数的均值;若n数据集的个数为奇数,则将n/4向上取整的那个数为下四分位数,3n/4向上取整的那个数作为上四分位数,四分位数和中位数是组成箱线图的重要部分,下图为将房间温度作为数据源画的箱线图,uy由于在作图过程中没有考虑到纵轴刻度的合理性,做出了多次修改,希望成为以后作图的经验。

8be1fa0b65fd4af64901d43c3ff0f647.png

四分位数的应用:

1不同类别的数据的比较

2识别可能的异常值,对异常值进行检查处理(由于四分卫距只使用了中间50%的数据集,可以有效的排出两边的异常值对结果的干扰,live中提到了Tukey's Test 方法

最小估计值:Q1-K(Q3-Q1)

最大估计值:Q3+K(Q3-Q1)

其中K的取值:K=1.5 中度异常

K=3 极度异常

下图为求解四分位数的方法:

2b623fcd2882aee2fe1af2cc980d7fbc.png

59e5f1a1320b00893c79dbbbed8bc6f3.png

40575b21cb09cf4d34745b029c06da06.png

4 标准差

标准差是衡量数据集与均值之间的距离,而标准差的单位也是数据集的的单位,s标准差很好的表示了数据集的离散程度,其中一个案例就是

夏普比率 = (投资回报-无风险回报)/投资组合的标准差

a16535f7640b162844f4adb8100fadc7.png

5,标准分

标准分的意义

标准分 = 距离平均值多少个标准差(在这里用猴子老师的课件图)

f9e45c14a59e1c79236b01b050f23cc6.png

对于描述统计学分析的课程总结:

一个统计学统计学量度标准可以非常准确的描述出数据集的特点以及趋势,必须根据数据集的特点来有选择的采用量度标准,否则只会得出南辕北辙的结论

基础概率:

1 什么是概率

设E是随机实验,S是实验E的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率

那么何为事件? 样本空间S为这次实验所有结果的结合,如抛一次硬币,结果为head,那么这次实验的样本空间就为{head},那此时事件有且只有一种,若一次实验中抛了3次硬币,可能出现的结果为{HHH,HHT,HTT,HTH,TTT,TTH,THH,THT},那么事件就可以是符合人为规定条件的集合,如规定事件A为第一次为Head的情况,那么事件A的集合为{HHH,HHT,HTT,HTH},概率为事件A集合个数/该次实验的样本空间元素总个数(在这里样本空间和事件A的集合都为理想状态,应当使用频率来描述实际中一个事件发生的频繁状态,在实验次数足够多的情况下,频率趋近于概率。

2如何计算概率

方法1:经验值

通过网上搜索已经给出的经验值,例如飞机上每个位置区域的在空难中的生存几率

方法2:数据分析

概率= 事件发生数/总数目

3概率有什么用

大数概率:如果统计数据足够大,那么事物出现的频率就能无限接近它的期望

小数概率:如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟他的期望值一点关系都没有

持续对大概率事件下注,并且同时预防那些足以毁掉你生活的风险

4 赌徒谬论

绝大多数赌徒倾向于相信之前的下注结果会对当前下注有影响,而事实上生活中有很多是独立事件,类似于掷色子,两次之间的结果并没有任何关联

而与独立事件相反的是相关事件,针对相关事件 的概率求解,则用到了决策树和i傲剑概率,在这里给出条件概率的公式:

P(A 和B)=P(A)*P(B | A)

解释:A和B发生的概率为A发生的概率乘以在A发生的前提下B发生的概率

决策数对于条件概率的求解具有具体化和简化的作用

决策树的建立有三个步骤:

第一步: 设立目标

第二步:确立所有的方案

第三步:所有方案的概率(减少主观判断的因素)

5 大数定律:

大数概率:如果统计数据足够大,那么事物出现的频率就能无限接近它的期望

6如何规避风险

1, 资本安全上:

投资你可支配资产的20%,本质上已经压上全部了

2, 在人生安全上:

买重大疾病险

课程总结:

在学习了概率之后,生活很多事都可以用更加科学和数据可视化的方法来自己做出更加理性的选择

这里是分割线----------------------------------------------------------------------------------

概率统计不分家,这边做一些 概率论的笔记

概率论相关的概念:

样本空间;一次试验中所有可能的结果组成的集合 ,称为该次试验的样本空间为S

事件:样本空间的子集,即集合中满足某些条件的元素组成的集合

事件的关系和运算即是集合的运算

等可能概型:

1样本空间只含有有限个元素

2每个基本事件发生的可能性相同

条件概率:事件A已发生的条件下事件B发生的概率

全概率公式:

508c78ee4468ad634d219d62807581f7.png

划分的定义:各个事件之间没有重叠且所有集合的并集为整个样本空间

贝叶斯公式

8ee314c4b880c152648a6cc8d96de9ce.png

2 随机变量极其分布律

随机变量根据取到的值的个数分为 离散型随机变量和连续型随机变量

2.1 离散型随机变量

离散型随机变量主要由随机变量X的所有可能取值以及每个取值的概率组成

2.2 三种重要的离散型随机变量

2.2.1 (0-1)分布

58cf54818a6d233f8db3f59c15cfefde.png

2.2.2伯努利实验,二项分布

636fd217522e5d63f3c811ce3db5a878.png

2a31d7a2aa998196ae425d978fa4cdb3.png
伯努利试验的例子

2.2.3泊松分布

8420d1910246c854ff01765a3607f3c9.png

泊松分布逼近二项分布的定理;泊松定理

cafe3ec9126f22a8eacc0b10182f413d.png

2.3 随机变量的分布函数

非离散型的随机变量,由于其可能取的值不能一一列举出来,因此无法像离散型的随机变量那样使用分布律来描述,并且在非离散型随机变量来说,我们不会关注特定某个数值的概率,而是某个区间的概率,所以我们使用分布函数来描述非离散型随机变量

2.3.1 分布函数

04485978fbe75e7fcb318751adcaf149.png

将随机变量X看成是数轴上的随机点的坐标,那么,分布函数在x处的函数值就表示X落在区间(负无穷,x]上的概率;

2.4.1 三种重要的连续型随机变量

e9b5531e217b1e5bfbfbe0bf106745ae.png

(1) 均匀分布

f02b0c91a756478660a9898fb3d80580.png

(2)指数分布

bda2c58f43fa75bc09040aff1eed16ed.png

f0c94d3a8cbff0ec7148b8f7f6ddb47c.png

(3)正态分布(高斯分布)

4 随机变量的函数函数分布

前面讨论了基于随机变量得到分布函数,那么将随机变量中的值作为自变量的函数的分布又是如何描述呢?

如:知道直径d的随机变量,但是需要知道截面积的随机变量,那么此时就需要求关于d的函数 的分布规律了

以上是关于一个随机变量的讨论

下面讨论多个随机变量的情况

5.1 二维随机变量

f103c12d53a1ce23d7cf221dbfe25111.png

边缘分布函数

a01528d669cde46624e4545d5719d75a.png

相互独立的随机变量

a530aad79d0ae6c77ea862234f5412d6.png

二维正态随机变量 X,Y相互独立的充要条件是参数rou = 0

两个随机变量的函数的分布

(1) Z= X+Y

da494c1a0f6d77a4e539b452aea738b9.png
Z=X+Y

第四章 随机变量的数字特征

4.1 数学期望

89bde29dade96b8da1244780e58d0a5b.png

数学期望简称期望,又称为均值

这里记住几个分布的数学期望 泊松分布的 期望为 拉姆达

均匀分布的期望为区间边界的中点

当需要求W的数学期望,且W是另一随机变量V的函数,这时,可通过下面的定理来求W的数学期望

20b9653045e7a65286241a96915a3fdb.png

4.2 方差

有时候期望只能表示样本的集中趋势,不足以看出总体数据的分散程度,而方差体现了一组数据的分散程度。

867d8df5aad280bb4c065ef7169e239e.png

连续性随机变量的方差公式:

2e9368139c303440a47c03fb6d5e55e1.png

0-1 分布 的方差

c27aa5b2f399f77d1fc9aad5d6814460.png

泊松分布的方差

cae036137433d36c33ec5c3421d7b42e.png

均匀分布的方差

f940b9764c1e29ecca416eb47f74ceb6.png

切比雪夫不等式

6af00ac228cf1224f229dfc40c0953fa.png

除了X和Y的数学期望和方差以外 ,还需要讨论X与Y之间相关关系的数字特征

概念1 : 协方差

73ca8db1ae0e4b86afd768a06a008781.png

协方差越大,说明两个随机变量线性不相关,但不一定相互独立;

矩,协方差矩阵

d10d007ef2c533ca770f5642ea95acf9.png

协方差矩阵

806073dac5ace80cd0c53c6b6ae5bb9d.png

伯努利大数定律

d6ddea4ef6a1e1a8ad11142e8103f897.png

8ada6bcd9b1541eeea3368231ec778e2.png

中心极限定理

定理一:独立同分布的中心极限定理

63d242187057bb907c08837e7d63ad20.png

即相互独立且服从同一分布,则这些随机变量之和的随机变量的分布函数符合标准正态分布,该定理的另一个形式是

ddd3b541241d4a557e1c61bd18f7fa93.png

中心极限定理

描述小部分样本的数字特征和总体样本之间的关系

从一个总体中抽取多个样本,当总体个数趋于无穷大时(N>=30)每个样本的均值组成的样本空间符合正态分布

样本的均值和总体的均值相同,而标准差为根号n分之源标准差

样本与抽样分布

几个常用的概念

dc15c9f2522c46358ff732014f3eb2bb.png
总体,个体,容量的定义

9e5b12687b9b5f3e352210e8cbc28d8a.png

往往总体的容量都非常大,不可能将所有的个体都统计到位,所以可以使用抽取部分个体的数字特征来描述总体的特征

c6037bb2299326edb9e0dfa17b02d77d.png

查看样本分布状态和特征的一种有效方法就是 频率直方图和箱线图

箱线图在数据探索中往往用来侦测疑似异常值

5e6d6358547b271be0a08328628e5cda.png

在应用时,往往不是直接使用样本本身,而是针对不同问题构造样本的适当函数,利用这些样本的函数进行统计推断

d799eaaa9e80647d891fdf5fc0e3a9d6.png
统计量的概念

0ec8c3c3020e8173bbbb52d040ff1712.png

920a913595308877609cabcca7b09d36.png

第一种统计量的分布 ,卡方分布

5e1fe99ea932aac92fe1f3636de0190f.png

2adc30a1bf3858695b82e415ff4661f2.png

从上图中可以看出,当n逐渐增大时,卡方分布的概率密度逐渐接近正态分布

卡方分布的数学期望为n,方差为2n

(2) t分布

db29109eed8db4a487cdeb9619edd0ce.png

(3)F分布

7ca055d38212c6e9adc4298652ace0e9.png

(4)正态总体的样本均值和样本方差的分布

8347ca249ea5566903651291f3027c1d.png

f293d68d469939cbd783bb86de18ba3a.png

b192a910c9bfafe52fd332321863fde2.png

参数估计

(1) 点估计

f5b7b6fcddd4caada07d098354d07d08.png

6d0a36c5d6cb077a0dd833f9c27afbea.png

点估计的两种方法

(1.1)矩估计法

6ad021b3419adb6d405c440e8aac74c3.png
利用样本的k阶矩描述总体的样本

(1.2)最大似然估计

例子:当普通人和猎人一同向一只鹿开枪,鹿倒下了,这时候大概率是由猎人打中的

同理,我们要找到一个参数使得似然函数的概率最大才能相信这个参数就是最好的估计,概率越大的,越值得被相信。

构造一个似然函数

b52432f238b1ca01416dc24f2cf0c75e.png

构造完似然函数以后,需要对两边取对数,然后对参数 Theta 求偏导,令倒数为零时,似然函数达到最大

分割线


最近整理了一份概率论和数理统计的知识点,有需要的可以参考参考

链接:https://pan.baidu.com/s/129qMQNzHs3StxipxybRLtg 密码:t2cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值