Vamei博客学习笔记（1）

最新推荐文章于 2021-12-29 14:11:45 发布

PerpetualLearner

最新推荐文章于 2021-12-29 14:11:45 发布

阅读量275

点赞数 1

分类专栏： # 他山之玉文章标签： Vamei 概率论

本文链接：https://blog.csdn.net/The_Time_Runner/article/details/90144165

版权

他山之玉专栏收录该内容

14 篇文章 2 订阅

订阅专栏

本来想学习pluskid博客的机器学习，看了几篇发现pluskid的数学功底太强，文章中信手拈来的一些数学概念或公式就让我扩展了n层迭代理解，所以先重新温习以下Vamei的博客，这里的知识对我更敏感。取材于博客，有些地方是我自己的理解，请自斟酌。

本次笔记取材于：

数据科学
为什么说“概率”带来一场现代革命？
概率论01 计数

数据科学

整个数据分析的链条包含：

概率论：统计的基础
统计：传统意义上的数据处理手段。
机器学习：
1. 计算机领域发展的算法
2. 传统统计中已经存在，但受限于计算能力的统计算法
3. 统计推断实现机器学习从数据中提炼知识的目的

概率这个概念
- 概率是16实际文艺复兴时期才称为数学家研究的课题，概率论研究的是随机时间。
- 研究概率的第一名数学家的第一个问题：卡尔达诺（Girolamo Cardano1501.9.24-1576.9.21，他爹是达芬奇朋友）；两个色子总和为10的概率
  
  总数为2的结果记作（1，1）；总数为10有三种（5，5）、（6，4）、（4，6）
- 概率论诞生较晚的根本阻碍在于信仰，古人认为事情的结果是神的安排。如果用概率来解释事情的发生，本质是对神做安排这种理念的颠覆。文艺复兴正是以理性挑战神权的时代，为随后的宗教改革奠定了基础。即便是卡尔达诺死后几十年，伽利略重拾色子问题都还在避讳“概率”“随机”之类的字眼。
- 费马和帕斯卡。最先接收概率应用的是赌徒这种六亲不认更不认神的角色，学概率经常遇到赌徒问题原因就在这里。最先进化出“期望”概念，进而“期望”概念被用于当时正兴旺的航海业，为商人盈利服务。概率论本质研究的是未发生的事情，对未来了解的越多，在金融活动中也就越能赚钱。进而扩展到阿姆斯特丹、伦敦、巴黎交易所。
- 雅克布 $\cdot$ 伯努利。概率计算的第一步是经验性假设，比如色子任何一面与另一面概率相同，但这并没有理论基础，直到伯努利提出“大数定律”，他认为在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。大数定律也正是蒙特卡罗方法的理论基础。
16世纪
- 1521年大明朝嘉靖皇帝继位
- 1603年德川家康建立江户幕府
- 16世纪，算术、初等代数、以及三角学等初等数学已大体完备
计数
- 等概率假设，是理论研究的基石，理想化但并非脱离现实。等概率下每个结果的概率是结果总数的倒数。
- 对于复杂情况采用计数技巧，计数的基本原理是==“分步”，一个事件有m个步骤==，每个步骤分别有 $n_1,n_2,...,n_m$ 中可能结果，那总共就有 $n_1*n_2*...*n_m$ 个可能结果。
- 计数原理不仅用在概率论，程序员的嵌套循环（外循环M步，内循环N步，总操作次数就是 $M\times N$ 次）中也会涉及。计数是==“离散数学”==的重点，“离散数学”是计算机专业的重点。
有序的重复抽样（对应itertools.product()）

抽样结果由多次抽样构成，每次抽样的样本，在下一次也可能出现。
- 重复抽样（或者说有放回的抽样，sampling with replacement）。
- 有序：样本出现的次序影响结果。比如(1,2)(1,2)和(2,1)(2,1)是两个不同结果。
从数学上来说，如果进行m次有放回的抽样，每次抽样都有n种可能。如果最终结果有序，那么将有 $n^m$ 种可能。

如果采用等概率假设，则每个具体结果的概率为 $P=\frac{1}{36}$
有序的非重复抽样（又叫做排列permutation，对应itertools.permutations()）
- 抽样是没有重复的。某一次抽样的样本在此后不会出现
- 前面一个步骤的动作减少了后面一个步骤的选择
从数学上来说，从n个样品中挑选m个，放入m个位置，将有 $n\times(n-1)\times...\times(n-m+1)$ 种可能。采用阶乘（ $f a c t o r i a l$ ）运算符，那么结果可以表示为：
$\frac{n!}{(n-m)!}$
阶乘的Python计算：
```
import math
print(math.factorial(5))
```
无序的非重复抽样（又叫做组合combination，对应itertools.combinations()）
- 抽样同样是非重复的
- 两个步骤之间不存在影响
m个样品有 $m!$ 种排列方式。如果是从n个样品中抽取m个作为组合，所有的这 $m!$ 种排序方式应该看做一种。因此，有：
$\frac{n!}{(n-m)!m!}$
种可能结果。我们可以用下面的方式记录组合:
$\begin{pmatrix} n\\m \end{pmatrix}= \frac{n!}{(n-m)!m!}$
组合的Python计算：
```
import scipy.misc
print(scipy.misc.comb(4, 2))
```
无序的重复抽样（）
- 重复说明每一次状态都是相同不变的
- 无序说明两个分步之间彼此步影响。
从n个样品中，无序的重复抽样m次，有：
$\begin{pmatrix} n+m-1\\m-1 \end{pmatrix}$

序与重复，这两个概念的组合，其中：

重复与否，影响的是每个结果的概率大小；
序，影响的是分步之间的关系，每步会不会对后面的概率产生影响。

另外，在某个具体的层面，都遵循等概率假设。

PerpetualLearner

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Vamei博客学习笔记（1）

本来想学习pluskid博客的机器学习，看了几篇发现pluskid的数学功底太强，文章中信手拈来的一些数学概念或公式就让我扩展了n层迭代理解，所以先重新温习以下Vamei的博客，这里的知识对我更敏感。取材于博客，有些地方是我自己的理解，请自斟酌。本次笔记取材于：数据科学为什么说“概率”带来一场现代革命？概率论01 计数数据科学整个数据分析的链条包含：概率论：统计的基...
复制链接

扫一扫