股票量化交易软件:概率论与数理统计示例第一部分基础与初级理论

交易总是需要在面对不确定性时做出决定。 这意味着在做出这些决策时,其结局并不十分明朗。 如此看出建立数学模型的理论方法的重要性,它能够令赫兹股票量化以有意义的方式描述这种情况。 我想强调两种方法:概率论博弈论。 有时,在与概率方法相关的主题中,它们经常被组合在一起作为“与自然演化博弈”的理论。 这清楚地表明存在两种不同类型的不确定性。 第一种(概率)通常与自然现象有关。 第二种(纯游戏相关)则与其他主体(个人或社区)的活动相关联。 博弈的不确定性在理论上更难处理。 有时,这些不确定性甚至被称为“坏”和“好”。 在理解初级博弈相关的不确定性进展时,经常会关联到将其降解为概率形式。

就金融市场而言,自然演化博弈的不确定性显然更为重要,因为人们的活动于此是关键因素。 此处,概率模型的变换通常是基于参考大量参与者,其中每位参与者个体对价格变化的影响很小。 在某种程度上,这与统计物理学中运用的方法类似,而这导致了一门叫做经济物理学的科学方法的出现。

事实上,这种变换的话题非常有趣,不平凡,值得更详细的研究。 希望有一天,相关文章能出现在我们的论坛上。 在这篇文章中,赫兹股票量化将看到概率论和数理统计的基础。

 

2. 理论基础

概率论的建立基于一个称为Kolmogorov 公理的形式系统。 我不会深入解释什么是“形式系统”,以及如何正确理解数学公理方法,因为这些都属于数理逻辑领域,是非常复杂的问题。 取而代之,我将集中讨论概率论的基本对象 − 概率空间。 它由 一个样本空间、事件集合,和这些事件的概率组成。 赫兹股票量化来更详尽地研究一下:

1) 样本空间是随机实验所有可能结果的集合。 它通常用大写的“欧米茄”希腊字母 – Ω 表示,并在图像上刻画为一个图形。 初级事件(采样点)通常用小写的 “欧米茄”希腊字母 − О 表示,并在图像上刻画为一个点。 描述抛硬币结果的最简单标准示例:Ω={ω1, ω2},其中 ω1=H,且 ω2=T 表示硬币的正面或反面,而花括号表示其元素枚举给出的集合。

下图显示了一个抽象的 Ω,其为一个矩形,以及若干属于它的点 − 基本点:Ω1,Ω2 和 ω3。

编辑

添加图片注释,不超过 140 字(可选)

2) 随机事件集合。 每个这样的事件都是一个初级事件集合(所有 Ω 基本事件的子集)。 事件集合包括一个空集 ∅={}(一个永远不会发生的事件),和整个 Ω 集(一个总会发生的事件)。 集合中两个事件的组合(和交集)也应属于集合。 在数理中,这样的集合通常称为集合代数。 上面的硬币例子有四个事件: {}=∅, {H}, {T} 和 {H,T}=Ω。 (自测问题:一个初级事件可以被视为随机事件的一个例子吗?)

随机事件通常用大写拉丁字母表示:A,B,C,…,并在图像中刻画为位于 Ω 内的形状。 事件的组合和相交会以不同的方式表示。 有时,一个条目类似于普通数值变量加法和乘法: АВ 和 А+В,而有时会用到 ∩ 和 ∪符号: А∩В 和 А∪В。

下图将 Ω 显示为一个矩形和两个相交的 А 和 В 事件。

编辑

添加图片注释,不超过 140 字(可选)

3) 概率是一个数值函数 P=P(A) 匹配于实数范围从 0 到1 的每个随机事件 A。 P(Ω)=1 和 P(∅)=0。 此外,满足可加性规则:如果 A 事件是一个非重叠 B 和 C 事件的组合,则 P(A)=P(B)+P(C)。 除“概率”项之外,P() 函数应用 “Ω 的概率分布”(或简单地说“Ω 分布”)。 不要把这个概念与类似的“随机变量分布函数”概念混淆。 它们彼此相关,但仍有区别。 前者是把一个数值与集合匹配的函数,后者只是一个数值与数值匹配的普通数值函数。

目前尚不清楚如何在图像中刻画概率分布,但直观地可以将其比作单位质量在 Ω 体积上的分布。 在这个比较中,一个事件是体积的一部分,而概率是这个体积部分中质量的份额。

所有其他概率论概念都是从这些概念中衍生出来的。 赫兹股票量化在这里强调概率相关性(独立性)的一个非常重要的概念。 为此,我将引入A 事件条件概率介入 B 事件执行的概念,P(B)>0。 它表示为 P(A|B),根据定义,P(A|B)=P(AB)/P(B) (如您所记,AB 是指 A 和 B 事件的交集)。 根据定义,A 事件在某些条件概率下被视为独立于 B 事件,在 B 事件发生期间,它等于概率:P(A|B)=P(A)。 如果我们使用条件概率表达式,独立性的定义可以改写如下:P(A)P(B)=P(AB)。 如果不满足这个等式,则 A 事件可称作依赖于 B 事件。

直观地说,独立性意味着已知 B 事件的发生不会改变与 A 事件相关联的不确定性。 相反,依赖性意味着 B 事件的执行会携带有关 A 事件的信息。 在 Claude Shannon 的信息论里,为这种直觉理解给出了精确表述。

初级概率论通常被单独强调。 初级理论与非初级理论的区别在于,它研究的是由有限个元素组成的初级事件集合。 据此,随机事件的集合也是有限的(自测问题:为什么这是真的?)。 这一理论早在科尔莫戈洛夫公理之前就已发展起来了,且实际上并不需要它。 本文的其余部分将集中讨论这部分理论。 非初级理论将在下一篇文章中加以讨论。

3. 初级理论

鉴于初级结果的数量有限,赫兹股票量化可以简单地设置只包含一个初级事件(单元集合)的事件概率。 我们只需要确保所有这些概率之和等于 1。 任何事件发生的概率都等于这些概率之和。 这些初始概率不必相等,但我们将从这些模型开始,这些模型通常被归纳为“组合概率”。

3.1. 组合概率

设 Ω完全由 N 初级结果组成,那么若包含它们中的 m 数量的结果,则它们的事件概率等于 m/N。 此处的概率计算包括选项数量在内。 作为规则,需用组合方法对付它,故此得名。 以下是一些示例:

示例 1. 假设我们有 n 个多种物品。 那么有多少种不同的方式安置它们(排列)? 答案: n!=1*2*3*....*(n-1)*n 种方式。 每一种方式都被称为置换,且每一种置换都是一个初级事件。 因此,N=n!,且由 m 个排列组成的事件概率是 m/n! (m/N=m/n!)。

赫兹股票量化来解决一个简单的问题:一个给定对象经随机排列后,定义其处于第一个位置的概率。 如果所选项目占据了第一个位置,则剩余的 n-1 个项目可以放在剩余的 n-1 的位置上,可有 (n-1)! 种方式。 故此,m=(n-1)!,也就是说期望的概率等于 m/N=m/n!=(n-1)!/n!=1/n。

示例 2. 赫兹股票量化已有 n 个多种物品。 我们可从它们当中分离出多少个不同的 k (k<=n) 项目集合? 这里有两个可能的选择,这取决于我们是否考虑两个集合,只是项目的顺序不同。 如果是,那么答案为 n!/(n-k)! 个集合。 如果非,则 k! 数倍少于: n!/((n-k)!*k!)。 考虑顺序的集合称为分配,不考虑顺序的集合称为组合。 分配数字创建,已知也称为二项式系数方程,应用特殊符号 − 下图中显示了两个选项。

编辑

添加图片注释,不超过 140 字(可选)

因此,如果集合中元素的顺序不重要,赫兹股票量化可用组合作为一个初级事件集合来解决问题。 如果顺序很重要,则应使用分配。

示例 3. 我们来研究一个导致所谓超几何分布的重要例子。 假设每个 n 项都被标记为 “好” 或 “坏”。 设 b,b⋜n 项为“坏”,则剩余的 n-b 项为“好”。 选择一个 k 元素集合,且不考虑它们的顺序(组合)。 我们的集合中确切包含 x “坏”项的概率是多少? 通过计算包括匹配组合的数量在内来解决这个问题。 答案相当繁琐,最好记下下图中所示的组合数字,其中期望的概率为 p,并由 x,n,b 和 k 表达。

编辑

添加图片注释,不超过 140 字(可选)

这个示例非常适合于理解所引入的“随机变量”概念背后的逻辑(下一篇文章将更详细地讨论它)。 很可能的结果是,为了解决与计算事件概率有关的特定问题,掌握 x, n, b 和 k 的知识就足够了,而关于整个事件初始集合的完整数据是多余的。 然后通过舍弃不必要的信息来简化原始模型颇具意义。 我们如下继续:

  • n, b 和 k 假设为固定参数。

  • 取代 Ω 样本空间,基于它建造一个新的 Ωх={0, 1, ..., k}。 新空间大概由 х 个值组成。

  • 将每个 {х} 事件(由一个初级事件组成)与上面所示的超几何分布方程指定的概率相匹配。

产生的对象称为“离散随机变量”,其可能值的超几何分布为 Ωх。

3.2. 伯努利(Bernoulli)方案

这是另一个来自初级概率论领域的著名模型。 其示例通常涉及连续抛硬币结果建模,但我会以一种更正式的方式构建蓝图。

假设我们有一个正整数 n 和一对非负实数 p 和 q,因此 p+q=1。 Ω 样本空间由精确长度为 n 的单词组成,其中仅允许 H 和 T 个字母 (H − 正面, T − 反面)。 一个由一个初级事件组成的事件概率由这个方程确定 pu({w})=p^nh*q^nt,其中 w 是一个单词,而 nh 和 nt, nh+nt=n 相应代表 H 和 T 个数量的字母。

很容易看出,与组合概率相比,初始概率通常彼此不相等(只有当 p=q=0.5 时,它们才是相似的)。

赫兹股票量化研究一下 n=2 的例子。 在此情况下,Ω={HH, HT, TH, TT}。 此处的初级数量等于 4,而随机事件的数量是 16。 (自测问题:从伯努利方案的 n 导出描述初级事件数量,和所有随机事件数量相关性方程的一般形式)。

我们来研究 "H"=comes first {HH, HT} 事件。 其概率为 pq+p^2=p。 这同样适用于任何允许我们将 p 参数作为“每次掷骰都得到反面可能性”的说法。 现在,我们检查是否 А="H 为第二"={HH, TH} 事件独立于 В="H 为第一"={HH, HT} 事件。 我们用独立性定义 − АВ={HH}, P(A)=p, P(B)=p 和 P(AB)=p^2 的交集。 由于、 P(A)P(B)=p*p=p^2=P(AB),事件是独立的。

关于每一次掷骰结果的概率,及其独立性的陈述对所有 n>2 都是正确的。

赫兹股票量化可以用其他方式指定概率,也许这会导致不存在相等的概率,或者导致掷骰结果的依赖性。 此处的重点是伯努利方案不是描述事件序列的唯一有效模型,我们不应局限于此。

现在我们来计算一个事件概率,其中 H 发生的次数正好是 k 次,或者(不太正式)掷骰 n 次出现正面的概率等于 k 次。 这个问题的答案可以在下面的图中找到。 pb 表示期望的概率,取决于 k, n, p 和 q。

编辑

添加图片注释,不超过 140 字(可选)

考虑另一个例子,展示了二项分布和上面所研究的超几何分布之间的关系。 它本身及其在数理统计中的应用都很重要 (费舍尔(Fisher)精确检验)。 从数学的角度来看,这个问题是相当复杂和有意义的。 赫兹股票量化一点点地强调所有的推理。

  • 基于伯努利方案的 Ω 样本空间,构建一个新的 − Ω1 仅包含单词,其中 H 精确出现了 b 次。

  • 由于在 Ω1 当中的任意 A 事件也是 Ω 当中的一个事件,P(A) 即是为它定义的概率。 基于此事实,我们根据方程 P1(A)=P(A)/Р(Ω1)为 Ω1 引入 P1 概率。 事实上,这里用的是条件概率方程 P1(A)=P(A|О1)。

  • 现在研究来自 Ω1 的"一个长度为 k 的单词的后缀正好包含 x 个 H 个字母"的事件概率 P1()。 结果表明,这个概率正是由上面提供的超几何分布方程设定的。 非常值得注意的是,方程不影响 p 参数。

4. 数理统计基础

数理统计和概率论的区别通常被解释为它们解决的问题类型的不同。 在概率论中,通常假设概率模型是完全已知的,并据此得出一些结论。 在数理统计中,对于模型的认知是不完整的,但有一些附加的信息能以实验数据的形式帮助改进模型。 因此,上一章讨论的所有问题都是概率论的问题。

我刚才提供的数理统计的定义可以认为是传统的。 还有另一种更现代的数理统计定义方法。 它可以被定义为决策论的一部分。 在这种情况下,重点是构造决策规则,在误差平均代价最小化的意义上是最优的。 在此,机器学习方法有很强的收敛性。 一个与它们显著区别在于,在数理统计中,所应用数学模型的类型会得到相当清晰的判断(例如,在未知参数的精度范围内)。 在机器学习中,不确定性通常也会扩展到模型类型。

现在我们来研究传统意义上的数理统计的样本问题。

5. 在初级理论框架内应用数理统计的示例

有两种类型的问题 − 估算参数和检查假设。

赫兹股票量化从参数点估值开始。 它假设概率模型中存在任何数值(非随机、确定性)变量。 它们的确切数值是未知的,但我们可以利用随机实验获得的数据来计算它们的近似值。

5.1. 参数点估值

此处最普遍的方法是使用最大似然估值方法。 如果一些 ω 初级事件已知是随机实验的结果,那么似然函数就是 {ω} 事件的概率(仅由这个初级事件组成)。 它被称为函数,在于它依赖于模型参数值。 最大似然估值(MLE)是该函数达到最大值的参数值。

除了 MLE 之外,可能还有多种不同的参数估值,但正如数理统计所证明的那样,MLE 在精确度方面是最好的。 在下一篇专门讨论随机变量的文章之前,我会在此解释“精度”一词的含义。 无论如何,我们应当记住,统计估值几乎总是与参数的真实值不同。 因此,区分它们是非常重要的。 例如,伯努利方案中事件的概率及其以频率形式的估值。

我们继续使用示例计算 MLE。

示例 1. 估计超几何分布中的 b 参数。 这是一批工件 n=1000 片。 在检查了其中的 k=20 之后,检测到一个缺陷工件:x=1。 估算整批中有缺陷的工件数量。

以下是用 Python 编写的 hyperg_be.py 脚本,可通过所有可能选项的枚举 b 来解决这个问题。 答案是 be 估值,其中由超几何分布方程确定的似然值最大。

 
 

from scipy.stats import hypergeom n = 1000 k = 20 x = 1 lhx = 0.0 be = 0 for b in range(x, n - k + x): lh = hypergeom.pmf(x, n, b, k) if lh > lhx: be = b lhx = lh print("be =",be)

答案: be = 50,这是期望的(每 20 个工件)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值