后两节
金融市场的基本概念
投资学基础概念
投资是为了获得可能但并不确定的未来值(Future value)而作出牺牲确定的现值(Present value)的行为。
投资学的主要内容
- 金融资产
金融资产主要分为四大类:
-
固定收益型或债务型证券
-
普通股或权益型证券
-
基金
-
衍生产品(期货、期权、互换)
-
市场参与者
-
公司 – 净借款者
-
家庭 – 净储蓄者
-
政府 – 既可能是借款者又可能是储蓄者
-
金融中介:集中资金进行投资。包含:投资公司(公募、私募、财务公司)、商业银行、保险公司 投资银行 风险投资与私募股权
- 主要的市场
-
债券市场:到期收益率是重要指标,可以参考国债期货,用EXCEL表计算
债券价格与市场利率变化成反比。(低利率时期,市场利率变动对债券价格变动造成更大影响)
长期债券的价格受市场利率的影响大于短期债券。
-
外汇市场、
-
贵金属市场、
-
大宗商品市场
-
股票市场
数理统计
统计量与统计量的抽样分布
统计量:设 X 1 , X 2 ⋯ , X n X_{1},X_{2}\cdots,X_{n} X1,X2⋯,Xn是来自总体 X X X的一个样本, g ( X 1 , X 2 ⋯ , X n ) g(X_{1},X_{2}\cdots,X_{n}) g(X1,X2⋯,Xn))是样本的连续函数,且 g ( ) g() g()中不含任何未知参数,则称 g ( X 1 , X 2 ⋯ , X n ) g(X_{1},X_{2}\cdots,X_{n}) g(X1,X2⋯,Xn)为统计量。
样本均值: X ‾ = 1 n ∑ i = 1 n X i \overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i} X=n1∑i=1nXi
样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{2} S2=n−11∑i=1n(Xi−X)2
样本矩:样本 k k k阶原点矩: A k = 1 n ∑ i = 1 n X i k , k = 1 , 2 , ⋯ A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\cdots Ak=n1∑i=1nXik,k=1,2,⋯
样本 k k k阶中心矩: B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k , k = 1 , 2 , ⋯ B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{k},k = 1,2,\cdots Bk=n1∑i=1n(Xi−X)k,k=1,2,⋯
样本中位数与样本分位数
中位数是指累计概率
p
=
0.5
p=0.5
p=0.5时对应的随机变量值
x
x
x,而样本抽样后的一组离散个数的取值,因此,我们定义样本中位数只需要查找抽样后的样本中排在中间的那个样品,具体来说:
m
0.5
=
{
x
(
n
+
1
2
)
,
n
为奇数,
1
2
(
x
2
)
+
x
(
n
2
+
1
)
)
,
n
为偶数.
m_{0.5}= \begin{cases}x\left(\frac{n+1}{2}\right), & n \text { 为奇数, } \\ \left.\frac{1}{2}\left(\frac{x}{2}\right)+x\left(\frac{n}{2}+1\right)\right), & n \text { 为偶数. }\end{cases}
m0.5={x(2n+1),21(2x)+x(2n+1)),n 为奇数, n 为偶数.
若
n
=
5
n=5
n=5, 则
m
0.5
=
x
(
3
)
m_{0.5}=x_{(3)}
m0.5=x(3), 若
n
=
6
n=6
n=6, 则
m
0.5
=
1
2
(
x
(
3
)
+
x
(
4
)
)
m_{0.5}=\frac{1}{2}\left(x_{(3)}+x_{(4)}\right)
m0.5=21(x(3)+x(4))。
样本
p
p
p 分位数
m
p
m_{p}
mp 可如下定义:
m
p
=
{
x
(
[
n
p
+
1
]
)
,
若
n
p
不是整数,
1
2
(
x
(
n
p
)
+
x
(
n
p
+
1
)
)
,
若
n
p
是整数.
m_{p}= \begin{cases}x_{([n p+1])}, & \text { 若 } n p \text { 不是整数, } \\ \frac{1}{2}\left(x_{(n p)}+x_{(n p+1)}\right), & \text { 若 } n p \text { 是整数. }\end{cases}
mp={x([np+1]),21(x(np)+x(np+1)), 若 np 不是整数, 若 np 是整数.
用普通的语言理解就是:先将抽样的
n
n
n个样本按从小到大排序,样本
p
p
p分位数就是排在第
n
×
p
n\times p
n×p位的样品值,当然有可能
n
×
p
n\times p
n×p不是整数,按上述公式处理。
样本分位数的抽样分布的渐近分布为正态分布
三大分布
参考:https://blog.csdn.net/anshuai_aw1/article/details/82735201
1. 卡方分布
假设
x
1
,
x
2
,
.
.
.
x
n
x_1,x_2,...x_n
x1,x2,...xn是标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1)为总体抽样的得到的样本(
x
1
,
x
2
,
.
.
.
x
n
x_1,x_2,...x_n
x1,x2,...xn独立同分布于
N
(
0
,
1
)
N(0,1)
N(0,1)),则
χ
2
=
x
1
2
+
x
2
2
+
⋯
+
x
n
2
\chi^{2}=x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}
χ2=x12+x22+⋯+xn2
的分布为自由度为n的
χ
2
\chi^{2}
χ2分布,简称
χ
2
∼
χ
2
(
n
)
\chi^{2} \sim \chi^{2}(n)
χ2∼χ2(n),
χ
2
\chi^{2}
χ2分布的密度函数为:
p
(
y
)
=
(
1
/
2
)
n
2
Γ
(
n
/
2
)
y
n
2
−
1
e
−
y
2
,
y
>
0
p(y)=\frac{(1 / 2)^{\frac{n}{2}}}{\Gamma(n / 2)} y^{\frac{n}{2}-1} \mathrm{e}^{-\frac{y}{2}}, \quad y>0
p(y)=Γ(n/2)(1/2)2ny2n−1e−2y,y>0
n
n
n个标准正态分布的平方和服从自由度为
n
n
n的卡方分布。
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 是来自正态总体
N
(
μ
,
σ
2
)
N\left(\mu, \sigma^{2}\right)
N(μ,σ2) 的样本, 其样本均值和样本方差分别为
x
ˉ
=
1
n
∑
i
=
1
n
x
i
和
s
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
,
\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} \text { 和 } s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2},
xˉ=n1i=1∑nxi 和 s2=n−11i=1∑n(xi−xˉ)2,
那么,
(
n
−
1
)
s
2
σ
2
∼
χ
2
(
n
−
1
)
\frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)
σ2(n−1)s2∼χ2(n−1)。
从上图可见当自由度 n 越大, 密度曲线越趋于对称, n越小, 曲线越不对称.
2. t分布
设随机变量 X 1 X_{1} X1 与 X 2 X_{2} X2 独立且 X 1 ∼ N ( 0 , 1 ) , X 2 ∼ χ 2 ( n ) X_{1} \sim N(0,1), X_{2} \sim \chi^{2}(n) X1∼N(0,1),X2∼χ2(n), 则称 t = X 1 X 2 / n t=\frac{X_{1}}{\sqrt{X_{2} / n}} t=X2/nX1 的分布为自由度为 n n n 的 t t t 分布, 记为 t ∼ t ( n ) t \sim t(n) t∼t(n)。
从下图可以看到:当自由度较大 ( ( ( 如 n ⩾ 30 ) n \geqslant 30) n⩾30) 时, t t t 分布可以用 N ( 0 , 1 ) N(0,1) N(0,1) 分布近似(图中 t ( 100 ) t(100) t(100)几乎与 N ( 0 , 1 ) N(0,1) N(0,1)重合)。下面,我们使用样本均值和样本方差构造t统计量:
设
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 是来自正态分布
N
(
μ
,
σ
2
)
N\left(\mu, \sigma^{2}\right)
N(μ,σ2) 的一个样本,
x
ˉ
\bar{x}
xˉ 与
s
2
s^{2}
s2 分别是该样本的样本均值与样本方差, 则有
t
=
n
(
x
ˉ
−
μ
)
s
∼
t
(
n
−
1
)
t=\frac{\sqrt{n}(\bar{x}-\mu)}{s} \sim t(n-1)
t=sn(xˉ−μ)∼t(n−1)
3. F分布
两个变量,
4. 重要公式与结论
(1) 对于 χ 2 ∼ χ 2 ( n ) \chi^{2}\sim\chi^{2}(n) χ2∼χ2(n),有 E ( χ 2 ( n ) ) = n , D ( χ 2 ( n ) ) = 2 n ; E(\chi^{2}(n)) = n,D(\chi^{2}(n)) = 2n; E(χ2(n))=n,D(χ2(n))=2n;
(2) 对于 T ∼ t ( n ) T\sim t(n) T∼t(n),有 E ( T ) = 0 , D ( T ) = n n − 2 ( n > 2 ) E(T) = 0,D(T) = \frac{n}{n - 2}(n > 2) E(T)=0,D(T)=n−2n(n>2);
(3) 对于 F ~ F ( m , n ) F\tilde{\ }F(m,n) F ~F(m,n),有 1 F ∼ F ( n , m ) , F a / 2 ( m , n ) = 1 F 1 − a / 2 ( n , m ) ; \frac{1}{F}\sim F(n,m),F_{a/2}(m,n) = \frac{1}{F_{1 - a/2}(n,m)}; F1∼F(n,m),Fa/2(m,n)=F1−a/2(n,m)1;
(4) 对于任意总体 X X X,有 E ( X ‾ ) = E ( X ) , E ( S 2 ) = D ( X ) , D ( X ‾ ) = D ( X ) n E(\overline{X}) = E(X),E(S^{2}) = D(X),D(\overline{X}) = \frac{D(X)}{n} E(X)=E(X),E(S2)=D(X),D(X)=nD(X)
点估计
1. 点估计就是用 θ ^ \hat{\theta} θ^的某个取值作为总体参数 θ 的估计值
区间估计指的是使用一个区间估计总体中的参数,区间估计解决了点估计无法评价估计的精度的问题。
设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是来自总体的一个样本, 用于估计未知参数 θ \theta θ 的统计量 θ ^ = θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right) θ^=θ^(x1,x2,⋯,xn) 称为 θ \theta θ 的估计量, 或称为 θ \theta θ 的点估计, 简称估计。
2. 矩估计
设
X
X
X 为随机变量,
k
k
k 为正整数。 如果以下的数学期望都存在, 则称
μ
k
=
E
(
X
k
)
\mu_{k}=E\left(X^{k}\right)
μk=E(Xk)
为
X
X
X 的
k
k
k 阶原点矩。 称
ν
k
=
E
(
X
−
E
(
X
)
)
k
\nu_{k}=E(X-E(X))^{k}
νk=E(X−E(X))k
为
X
X
X 的
k
k
k 阶中心矩。
显然,数学期望是随机变量的1阶原点矩,方差是随机变量的2阶中心矩。随机变量的矩是随机变量的一类数字特征,随机变量的原点矩刻画了随机变量
X
X
X偏离原点
(
0
,
0
)
(0,0)
(0,0)的程度,而中心矩描述了随机变量
X
X
X偏离“中心”的程度,可以使用数学期望和方差做类比。
求中心距和原点矩:
from scipy.stats import norm
x_i = norm.rvs(loc=0, scale=1, size=10000)
a3 = np.mean(np.power(x_i,3))
b3 = np.mean(np.power((x_i-np.mean(x_i)), 3))
矩估计:使用样本矩(样本原点矩和样本中心矩)替换总体矩(原点矩和中心矩)
3. 极大似然估计
极大似然估计就是利用已知的样本结果信息,反推最有可能(最大概率)导致这些样本结果出现的模型参数值。利用求导找出概率的最大值,来作为 θ ^ \hat{\theta} θ^以此估计 θ \theta θ
引用:https://blog.csdn.net/Weary_PJ/article/details/106525960
步骤
(1)写出似然函数
(2)对似然函数取对数,并整理
(3)求导数
(4)解似然方程
# 使用sympy演示极大似然估计的案例
from sympy import *
p = Symbol('p') #定义总体参数
P_p = p**7*(1-p)**3 # 定义似然函数
lnP_p = ln(P_p) # 化简为对数似然
d_ln_P = diff(lnP_p, p) # 求导函数
p_hat = solve(d_ln_P, p) # 导函数为0
print("p的极大似然估计为:",p_hat)
4. 参数估计-区间估计
参数的点估计是使用一个具体的数值(统计量)估计总体分布的参数值。解决这个问题一个比较复杂的是方法是:构造统计量的分布,即抽样分布,然后使用一个区间估计总体分布的参数,这就是区间估计。
设
θ
\theta
θ 是总体的一个参数,其参数空间为
Θ
,
x
1
,
x
2
,
⋯
,
x
n
\Theta, x_{1}, x_{2}, \cdots, x_{n}
Θ,x1,x2,⋯,xn 是来自该总体的样本, 对给定的一个
α
(
0
<
α
<
1
)
\alpha(0<\alpha<1)
α(0<α<1), 假设有两个统计量
θ
^
L
=
θ
^
L
(
x
1
,
x
2
,
⋯
,
x
n
)
\hat{\theta}_{L}=\hat{\theta}_{L}\left(x_{1}, x_{2}, \cdots, x_{n}\right)
θ^L=θ^L(x1,x2,⋯,xn) 和
θ
^
U
=
\hat{\theta}_{U}=
θ^U=
θ
^
U
(
x
1
,
x
2
,
⋯
,
x
n
)
\hat{\theta}_{U}\left(x_{1}, x_{2}, \cdots, x_{n}\right)
θ^U(x1,x2,⋯,xn), 若对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
P
θ
(
θ
^
L
⩽
θ
⩽
θ
^
U
)
⩾
1
−
α
,
P_{\theta}\left(\hat{\theta}_{L} \leqslant \theta \leqslant \hat{\theta}_{U}\right) \geqslant 1-\alpha,
Pθ(θ^L⩽θ⩽θ^U)⩾1−α,
则称随机区间
[
θ
^
L
,
θ
^
V
]
\left[\hat{\theta}_{L}, \hat{\theta}_{V}\right]
[θ^L,θ^V] 为
θ
\theta
θ 的置信水平为
1
−
α
1-\alpha
1−α 的置信区间,或简称
[
θ
^
L
,
θ
^
V
]
\left[\hat{\theta}_{L}, \hat{\theta}_{V}\right]
[θ^L,θ^V] 是
θ
\theta
θ 的
1
−
α
1-\alpha
1−α 置信区间,
θ
^
L
\hat{\theta}_{L}
θ^L 和
θ
^
U
\hat{\theta}_{U}
θ^U 分别称为
θ
\theta
θ 的 (双侧) 置信下限和置信上限。
通过样本构造一个置信区间, 使用bootstrap方法快速构造置信区间
假设我们想要通过某个统计量T估计总体参数,置信水平为 1 − α 1-\alpha 1−α。从总体中抽样 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,我们只需要在样本中继续抽样(重抽样),每次抽样计算一次统计量T,这样就可以构造一个抽样分布,取抽样分布的 α 2 \frac{\alpha}{2} 2α分位数点和 1 − α 2 1-\frac{\alpha}{2} 1−2α分位数点作为区间左右边界即可。
假设检验
假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立