本来想学习pluskid博客的机器学习,看了几篇发现pluskid的数学功底太强,文章中信手拈来的一些数学概念或公式就让我扩展了n层迭代理解,所以先重新温习以下Vamei的博客,这里的知识对我更敏感。取材于博客,有些地方是我自己的理解,请自斟酌。
本次笔记取材于:
整个数据分析的链条包含:
- 概率论:统计的基础
- 统计:传统意义上的数据处理手段。
- 机器学习:
- 计算机领域发展的算法
- 传统统计中已经存在,但受限于计算能力的统计算法
- 统计推断实现机器学习从数据中提炼知识的目的
-
概率这个概念
-
概率是16实际文艺复兴时期才称为数学家研究的课题,概率论研究的是随机时间。
-
研究概率的第一名数学家的第一个问题:卡尔达诺(Girolamo Cardano1501.9.24-1576.9.21,他爹是达芬奇朋友);两个色子总和为10的概率
总数为2的结果记作(1,1);总数为10有三种(5,5)、(6,4)、(4,6)
-
概率论诞生较晚的根本阻碍在于信仰,古人认为事情的结果是神的安排。如果用概率来解释事情的发生,本质是对神做安排这种理念的颠覆。文艺复兴正是以理性挑战神权的时代,为随后的宗教改革奠定了基础。即便是卡尔达诺死后几十年,伽利略重拾色子问题都还在避讳“概率”“随机”之类的字眼。
-
费马和帕斯卡。最先接收概率应用的是赌徒这种六亲不认更不认神的角色,学概率经常遇到赌徒问题原因就在这里。最先进化出“期望”概念,进而“期望”概念被用于当时正兴旺的航海业,为商人盈利服务。概率论本质研究的是未发生的事情,对未来了解的越多,在金融活动中也就越能赚钱。进而扩展到阿姆斯特丹、伦敦、巴黎交易所。
-
雅克布 ⋅ \cdot ⋅伯努利。概率计算的第一步是经验性假设,比如色子任何一面与另一面概率相同,但这并没有理论基础,直到伯努利提出“大数定律”,他认为在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。大数定律也正是蒙特卡罗方法的理论基础。
-
-
16世纪
-
计数
- 等概率假设,是理论研究的基石,理想化但并非脱离现实。等概率下每个结果的概率是结果总数的倒数。
- 对于复杂情况采用计数技巧,计数的基本原理是==“分步”,一个事件有m个步骤==,每个步骤分别有 n 1 , n 2 , . . . , n m n_1,n_2,...,n_m n1,n2,...,nm中可能结果,那总共就有 n 1 ∗ n 2 ∗ . . . ∗ n m n_1*n_2*...*n_m n1∗n2∗...∗nm个可能结果。
- 计数原理不仅用在概率论,程序员的嵌套循环(外循环M步,内循环N步,总操作次数就是 M × N M\times N M×N次)中也会涉及。计数是==“离散数学”==的重点,“离散数学”是计算机专业的重点。
-
有序的重复抽样(对应
itertools.product()
)抽样结果由多次抽样构成,每次抽样的样本,在下一次也可能出现。
- 重复抽样(或者说有放回的抽样,sampling with replacement)。
- 有序:样本出现的次序影响结果。比如(1,2)(1,2)和(2,1)(2,1)是两个不同结果。
从数学上来说,如果进行m次有放回的抽样,每次抽样都有n种可能。如果最终结果有序,那么将有 n m n^m nm种可能。
如果采用等概率假设,则每个具体结果的概率为 P = 1 36 P=\frac{1}{36} P=361
-
有序的非重复抽样(又叫做排列permutation,对应
itertools.permutations()
)- 抽样是没有重复的。某一次抽样的样本在此后不会出现
- 前面一个步骤的动作减少了后面一个步骤的选择
从数学上来说,从n个样品中挑选m个,放入m个位置,将有 n × ( n − 1 ) × . . . × ( n − m + 1 ) n\times(n-1)\times...\times(n-m+1) n×(n−1)×...×(n−m+1)种可能。采用阶乘( f a c t o r i a l factorial factorial)运算符,那么结果可以表示为:
n ! ( n − m ) ! \frac{n!}{(n-m)!} (n−m)!n!
阶乘的Python计算:import math print(math.factorial(5))
-
无序的非重复抽样(又叫做组合combination,对应
itertools.combinations()
)- 抽样同样是非重复的
- 两个步骤之间不存在影响
m个样品有 m ! m! m!种排列方式。如果是从n个样品中抽取m个作为组合,所有的这 m ! m! m!种排序方式应该看做一种。因此,有:
n ! ( n − m ) ! m ! \frac{n!}{(n-m)!m!} (n−m)!m!n!
种可能结果。我们可以用下面的方式记录组合:
( n m ) = n ! ( n − m ) ! m ! \begin{pmatrix} n\\m \end{pmatrix}= \frac{n!}{(n-m)!m!} (nm)=(n−m)!m!n!
组合的Python计算:import scipy.misc print(scipy.misc.comb(4, 2))
-
无序的重复抽样()
- 重复说明每一次状态都是相同不变的
- 无序说明两个分步之间彼此步影响。
从n个样品中,无序的重复抽样m次,有:
( n + m − 1 m − 1 ) \begin{pmatrix} n+m-1\\m-1 \end{pmatrix} (n+m−1m−1)
序与重复,这两个概念的组合,其中:
- 重复与否,影响的是每个结果的概率大小;
- 序,影响的是分步之间的关系,每步会不会对后面的概率产生影响。
另外,在某个具体的层面,都遵循等概率假设。