Vamei博客学习笔记(1)

本来想学习pluskid博客的机器学习,看了几篇发现pluskid的数学功底太强,文章中信手拈来的一些数学概念或公式就让我扩展了n层迭代理解,所以先重新温习以下Vamei的博客,这里的知识对我更敏感。取材于博客,有些地方是我自己的理解,请自斟酌。

本次笔记取材于:

  1. 数据科学
  2. 为什么说“概率”带来一场现代革命?
  3. 概率论01 计数
  • 数据科学

整个数据分析的链条包含:

  1. 概率论:统计的基础
  2. 统计:传统意义上的数据处理手段。
  3. 机器学习:
    1. 计算机领域发展的算法
    2. 传统统计中已经存在,但受限于计算能力的统计算法
    3. 统计推断实现机器学习从数据中提炼知识的目的
  • 概率这个概念

    • 概率是16实际文艺复兴时期才称为数学家研究的课题,概率论研究的是随机时间。

    • 研究概率的第一名数学家的第一个问题:卡尔达诺(Girolamo Cardano1501.9.24-1576.9.21,他爹是达芬奇朋友);两个色子总和为10的概率

      总数为2的结果记作(1,1);总数为10有三种(5,5)、(6,4)、(4,6)

    • 概率论诞生较晚的根本阻碍在于信仰,古人认为事情的结果是神的安排。如果用概率来解释事情的发生,本质是对神做安排这种理念的颠覆。文艺复兴正是以理性挑战神权的时代,为随后的宗教改革奠定了基础。即便是卡尔达诺死后几十年,伽利略重拾色子问题都还在避讳“概率”“随机”之类的字眼。

    • 费马和帕斯卡。最先接收概率应用的是赌徒这种六亲不认更不认神的角色,学概率经常遇到赌徒问题原因就在这里。最先进化出“期望”概念,进而“期望”概念被用于当时正兴旺的航海业,为商人盈利服务。概率论本质研究的是未发生的事情,对未来了解的越多,在金融活动中也就越能赚钱。进而扩展到阿姆斯特丹、伦敦、巴黎交易所。

    • 雅克布 ⋅ \cdot 伯努利。概率计算的第一步是经验性假设,比如色子任何一面与另一面概率相同,但这并没有理论基础,直到伯努利提出“大数定律”,他认为在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。大数定律也正是蒙特卡罗方法的理论基础。

  • 16世纪

  • 计数

    • 等概率假设,是理论研究的基石,理想化但并非脱离现实。等概率下每个结果的概率是结果总数的倒数。
    • 对于复杂情况采用计数技巧,计数的基本原理是==“分步”,一个事件有m个步骤==,每个步骤分别有 n 1 , n 2 , . . . , n m n_1,n_2,...,n_m n1,n2,...,nm中可能结果,那总共就有 n 1 ∗ n 2 ∗ . . . ∗ n m n_1*n_2*...*n_m n1n2...nm个可能结果。
    • 计数原理不仅用在概率论,程序员的嵌套循环(外循环M步,内循环N步,总操作次数就是 M × N M\times N M×N次)中也会涉及。计数是==“离散数学”==的重点,“离散数学”是计算机专业的重点。
  • 有序的重复抽样(对应itertools.product()

    抽样结果由多次抽样构成,每次抽样的样本,在下一次也可能出现。

    • 重复抽样(或者说有放回的抽样,sampling with replacement)。
    • 有序:样本出现的次序影响结果。比如(1,2)(1,2)和(2,1)(2,1)是两个不同结果。

    从数学上来说,如果进行m次有放回的抽样,每次抽样都有n种可能。如果最终结果有序,那么将有 n m n^m nm种可能。

    如果采用等概率假设,则每个具体结果的概率为 P = 1 36 P=\frac{1}{36} P=361

  • 有序的非重复抽样(又叫做排列permutation,对应itertools.permutations()

    • 抽样是没有重复的。某一次抽样的样本在此后不会出现
    • 前面一个步骤的动作减少了后面一个步骤的选择

    从数学上来说,从n个样品中挑选m个,放入m个位置,将有 n × ( n − 1 ) × . . . × ( n − m + 1 ) n\times(n-1)\times...\times(n-m+1) n×(n1)×...×(nm+1)种可能。采用阶乘 f a c t o r i a l factorial factorial)运算符,那么结果可以表示为:
    n ! ( n − m ) ! \frac{n!}{(n-m)!} (nm)!n!
    阶乘的Python计算:

    import math
    print(math.factorial(5))
    
  • 无序的非重复抽样(又叫做组合combination,对应itertools.combinations()

    • 抽样同样是非重复
    • 两个步骤之间不存在影响

    m个样品有 m ! m! m!种排列方式。如果是从n个样品中抽取m个作为组合,所有的这 m ! m! m!种排序方式应该看做一种。因此,有:
    n ! ( n − m ) ! m ! \frac{n!}{(n-m)!m!} (nm)!m!n!
    种可能结果。我们可以用下面的方式记录组合:
    ( n m ) = n ! ( n − m ) ! m ! \begin{pmatrix} n\\m \end{pmatrix}= \frac{n!}{(n-m)!m!} (nm)=(nm)!m!n!
    组合的Python计算:

    import scipy.misc
    print(scipy.misc.comb(4, 2))
    
  • 无序的重复抽样()

    • 重复说明每一次状态都是相同不变的
    • 无序说明两个分步之间彼此步影响。

    从n个样品中,无序的重复抽样m次,有:
    ( n + m − 1 m − 1 ) \begin{pmatrix} n+m-1\\m-1 \end{pmatrix} (n+m1m1)

序与重复,这两个概念的组合,其中:

  1. 重复与否,影响的是每个结果的概率大小;
  2. 序,影响的是分步之间的关系,每步会不会对后面的概率产生影响。

另外,在某个具体的层面,都遵循等概率假设。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值