2021-07-13

最新推荐文章于 2024-05-20 00:00:17 发布

Codewith_jing

最新推荐文章于 2024-05-20 00:00:17 发布

阅读量926

点赞数

文章标签： python

本文链接：https://blog.csdn.net/Codewith_jing/article/details/118701500

版权

Datawhale组队学习之集成学习——Task1 数学基础

集成学习

集成学习

高等数学

函数的定义
定义:设数集 $\subset {\mathbf{R}}, \text { 则称映射 } f: D \rightarrow \mathbf{R} \text { 为定义在 } D \text { 上的函数,通常简记为 }$
$\in D$
函数定义中,对每个 $\in D$ ,按对应法则 $f$ ,总有唯一确定的值 $y$ 与之对应，这个值称为函数 $f$ 在 $x$ 处的函数值,记作 $f (x),$ 即 $y = f (x) .$ 因变量 $y$ 与自变量 $x$ 之间的这种依赖关系,通常称为函数关系. 函数值 $f (x)$ 的全体所构成的集合称为函数 $f$ 的值域,记作 $R_{f}$ 或 $f (D),$ 即
$R_{f}=f(D)=\{y \mid y=f(x), x \in D\}$
说白了，函数就是实数集到实数集的一个映射，如：
$y=|x|=\left\{\begin{array}{ll} x, & x \geqslant 0 \\ -x, & x<0 \end{array}\right.$
的定义域 $D=(-\infty,+\infty),$ 值域 $R_{f}=[0,+\infty)$ 。
复合函数
设函数 $y = f (u)$ 的定义城为 $D_{f},$ 函数 $u = g (x)$ 的定义域为 $D_{x},$ 且其值域 $R_{g} \subset D_{t},$ 则由下式确定的函数
$\quad x \in D_{x}$
称为由函数 $u = g (x)$ 与函数 $y = f (u)$ 构成的复合函数,它的定义域为 $D_{x}$ ,变量 $u$ 称为中间变量。

例子：物体运动的动能为 $E=m v^{2} / 2,$ 而自由落体的速度为 $v = g t,$ 所以自由落体的动能是时间 $t$ 的复合函数 :
$E=\frac{1}{2} m g^{2} t^{2}$
3. 导数
定义：设函数 $y = f (x)$ 在点 $x_{0}$ 的某个邻域内有定义,当自变量 $x$ 在 $x_{0}$ 处取得增量
$\Delta x$ ;如果 $\Delta y$ 与 $\Delta x$ 之比当 $\Delta x \rightarrow 0$ 时的极限存在, 则称函数 $y =$ $f (x)$ 在点 $x_{0}$ 处可导,并称这个极限为函数 $y = f (x)$ 在点 $x_{0}$ 处的导数,记为 $f^{\prime}\left(x_{0}\right),$ 即
$f^{\prime}\left(x_{0}\right)=\lim _{\Delta, x \rightarrow 0} \frac{\Delta y}{\Delta x}=\lim _{\Delta x \rightarrow 0} \frac{f\left(x_{0}+\Delta x\right)-f\left(x_{0}\right)}{\Delta x}$
也可记作 $\left.y^{\prime}\right|_{x=x_{0}}$ , $\left.\frac{\mathrm{d} y}{\mathrm{~d} x}\right|_{x=x_{0}}$ .

若函数 $y = f (x)$ 的导数 $y^{\prime}=f^{\prime}(x)$ 可导，则称 $f^{\prime}(x)$ 的导数为 $f (x)$ 的二阶导数，记作 $y^{\prime \prime}$ 或 $\frac{d^{2} y}{d x^{2}},$ 即
$y^{\prime \prime}=\left(y^{\prime}\right)^{\prime} \text { 或 } \frac{d^{2} y}{d x^{2}}=\frac{d}{d x}\left(\frac{d y}{d x}\right)$
类似地，二阶导数的导数称为三阶导数，依次类推。二阶和二阶以上的导数统称为高阶导数。

定义：
设二元函数 $= f (x, y)$ 在点 $\left(x_{0}, y_{0}\right)$ 的某一邻域内有定义，当固定在 $y_{0}$ 而x在 $x_{0}$ 处有增量 $\Delta x$ 时，相应的函数有增量 $\Delta_{x} z=f\left(x_{0}+\Delta x, y_{0}\right)-f\left(x_{0}, y_{0}\right) .$
如果 $\lim _{\Delta x \rightarrow 0} \frac{\Delta_{x} z}{\Delta x}$ 存在，就称此极限为函数 $z = f (x, y)$
在点( $\left.x_{0}, y_{0}\right)$ 处对x的偏导数.
记作 $\frac{\partial z}{\partial x}\left|\left(x_{0}, y_{0}\right), \frac{\partial f}{\partial x}\right|\left(x_{0}, y_{0}\right)^{, z_{x} \mid\left(x_{0}, y_{0}\right)}, f_{x}\left(x_{0}, y_{0}\right) .$
即 $\left.\frac{\partial z}{\partial x}\right|_{\left(x_{0}, y_{0}\right)}=\lim _{\Delta x \rightarrow 0} \frac{\Delta_{x} z}{\Delta x}=\lim _{\Delta x \rightarrow 0} \frac{f\left(x_{0}+\Delta x, y_{0}\right)-f\left(x_{0}, y_{0}\right)}{\Delta x}$

梯度向量
梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。
定义：设二元函数 $z = f (x, y)$ 在平面区域D上具有一阶连续偏导数，则对于每一个点P（x, y）都可定出一个向量 $\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}=f_{x}(x, y) \bar{i}+f_{y}(x, y) \bar{j},$ 该函数就称为函数 $z = f (x, y)$ 在点P $(\mathrm{x}, \mathrm{y})$ 的梯度，记作gradf $(\mathrm{x}, \mathrm{y})$ 或
$\nabla f(x, y)$ ,即有:
$\operatorname{gradf}(\mathrm{x}, \mathrm{y})=\nabla f(x, y)=\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}=f_{x}(x, y) \bar{i}+f_{y}(x, y) \bar{j}$
其中 $\nabla=\frac{\partial}{\partial x} \bar{i}+\frac{\partial}{\partial y} \bar{j}$ 称为（二维的）向量微分算子或Nabla算子, $\nabla f=\frac{\partial f}{\partial x} \bar{i}+\frac{\partial f}{\partial y} \bar{j}$ 。
雅克比矩阵(Jacobian矩阵)
假设 $\mathbb{R}_{n} \rightarrow \mathbb{R}_{m}$ 是一个从n维欧氏空间映射到到m维欧氏空间的函数。
这个函数由m个实函数组成:
$y_{1}\left(x_{1}, \cdots, x_{n}\right), \cdots, y_{m}\left(x_{1}, \cdots, x_{n}\right)$ 。这些函数的偏导数(如果存在)可以组成一个m行n列的矩阵，这个矩阵就是所谓的雅可比矩阵:
$\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right]$
可见，梯度向量是雅克比矩阵的特例！
海森矩阵(Hessian 矩阵)
黑塞矩阵（Hessian Matrix），又译作海森矩阵、海瑟矩阵、海塞矩阵等，是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。
在数学中，海森矩阵（Hessian matrix 或 Hessian）是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵，假設有一实数函数
$f\left(x_{1}, x_{2}, \ldots, x_{n}\right)$
如果 $f$ 所有的二阶偏导数都存在，那么 $f$ 的海森矩阵的第 $i j$ 项，即：
$H(f)_{i j}(x)=D_{i} D_{j} f(x)$
其中 $x=\left(x_{1}, x_{2}, \ldots, x_{n}\right),$ 即
$H(f)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$
实际上，Hessian矩阵是梯度向量g(x)对自变量x的Jacobian矩阵。
函数极值问题

一元函数框架下：

1.判定极值的一阶充分条件：
设函数 $f (x)$ 在 $x_{0}$ 处连续，且在 $x_{0}$ 的某去心邻域 $U\left(x_{0}, \delta\right)$ 内可导
(1) 若 $\in\left(x_{0}-\delta, x_{0}\right)$ 时, $f^{\prime}(x)>0,$ 而 $\in\left(x_{0}, x_{0}+\delta\right)$ 时， $f^{\prime}(x)<0,$ 则 $f (x)$ 在 $x_{0}$ 处取得极大值;
(2) 若 $\in\left(x_{0}-\delta, x_{0}\right)$ 时， $f^{\prime}(x)<0$ ,而 $\in\left(x_{0}, x_{0}+\delta\right)$ 时， $f^{\prime}(x)>0$ ,则 $f (x)$ 在 $x_{0}$ 处取得极小值
(3) 若 $\in \dot{U}\left(x_{0}, \delta\right)$ 时, $f^{\prime}(x)$ 的符号保持不变，则 $f (x)$ 在 $x_{0}$ 处没有极值

2.判定极值的二阶充分条件：
设函数 $f (x)$ 在 $x_{0}$ 处具有二阶导数且 $f^{\prime}\left(x_{0}\right)=0, \quad f^{\prime \prime}\left(x_{0}\right) \neq 0$ 那么：
(1) 当 $f^{\prime \prime}\left(x_{0}\right)<0$ 时，函数 $f (x)$ 在 $x_{0}$ 处取得极大值;
(2) 当 $f^{\prime \prime}\left(x_{0}\right)>0$ 时，函数 $f (x)$ 在 $x_{0}$ 处取得极小值.

多元函数框架下：
定理：（二元函数取得极值的充分条件）如果函数 $z = f (x, y)$ 在点 $\left(x_{0}, y_{0}\right)$ 的某邻域内具有连续的二阶偏导数, $\left(x_{0}, y_{0}\right)$ 是它的驻点，令：
$\begin{array}{c} A=f_{x x}\left(x_{0}, y_{0}\right), B=f_{x y}\left(x_{0}, y_{0}\right), C=f_{y y}\left(x_{0}, y_{0}\right) \\ \Delta=B^{2}-A C \end{array}$
则:
(1)当 $\Delta<0$ 时， $f (x, y)$ 在 $\left(x_{0}, y_{0}\right)$ 取得极值. 其中 $A > 0$ 时取极小值, $A < 0$ 时取极大值.
(2)当 $\Delta>0$ 时, $f\left(x_{0}, y_{0}\right)$ 不是极值.
(3)当 $\Delta=0$ 时, 不能确定，需进一步判断.

更加严谨的表述：
设n多元实函数 $f\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 在点 $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 的邻域内有二阶连续偏导，若有:
$\left.\frac{\partial f}{\partial x_{j}}\right|_{\left(a_{1}, a_{2}, \ldots, a_{n}\right)}=0, j=1,2, \ldots, n$
并且
$A=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$
则有如下结果:
(1) 当A正定矩阵时, $f\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 在 $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 处是极小值;
(2) 当A负定矩阵时, $f\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 在 $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 处是极大值;
(3) 当A不定矩阵时, $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 不是极值点。
(4) 当A为半正定矩阵或半负定矩阵时, $M_{0}\left(a_{1}, a_{2}, \ldots, a_{n}\right)$ 是“可疑"极值点，尚需要利用其他方法来判定。

例子：求三元函数 $f(x, y, z)=x^{2}+y^{2}+z^{2}+2 x+4 y-6 z$ 的极值。
解: 因为 $\frac{\partial f}{\partial x}=2 x+2, \frac{\partial f}{\partial y}=2 y+4, \frac{\partial f}{\partial z}=2 z-6,$ 故该三元函数的驻点是 (-1,-2,3) 。
又因为 $\frac{\partial^{2} f}{\partial x^{2}}=2, \frac{\partial^{2} f}{\partial y^{2}}=2, \frac{\partial^{2} f}{\partial z^{2}}=2, \frac{\partial^{2} f}{\partial x \partial y}=0, \frac{\partial^{2} f}{\partial x \partial z}=0, \frac{\partial^{2} f}{\partial y \partial z}=0$
故有: $A=\left(\begin{array}{ccc}2 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 2\end{array}\right)$
因为A是正定矩阵，故 (-1,-2,3) 是极小值点，且极小值 $f (- 1, - 2, 3) = - 14$ 。

泰勒公式
泰勒公式就是用一个多项式函数去逼近一个给定的函数(即尽量使多项式函数图像拟合给定的函数图像)。如果一个非常复杂函数，想求其某点的值，直接求无法实现，这时候可以使用泰勒公式去近似的求该值，这是泰勒公式的应用之一。泰勒公式在机器学习中主要应用于梯度迭代。
定义：设 $n$ 是一个正整数。如果定义在一个包含a的区间上的函数 $f$ 在 $a$ 点处 $n + 1$ 次可导，那么对于这个区间上的任意 $x$ 都有:
$\begin{array}{c} f(x)=\frac{f(a)}{0 !}+\frac{f^{\prime}(a)}{1 !}(x-a)+\frac{f^{\prime \prime}(a)}{2 !}(x-a)^{2}+\cdots+\frac{f^{(n)}(a)}{n !}(x-a)^{n}+R_{n}(x) \\ =\sum_{n=0}^{N} \frac{f^{(n)}(a)}{n !}(x-a)^{n}+R_{n}(x) \end{array}$
其中的多项式称为函数在a处的泰勒展开式, $R_{n}(x)$ 是泰勒公式的余项。
例子
1、基于梯度的优化方法–梯度下降法：

import numpy as np
import matplotlib.pyplot as plt


def f(x):
    return np.power(x, 2)

def d_f_1(x):
    '''
    求导数的方式1
    '''
    return 2.0 * x

def d_f_2(f, x, delta=1e-4):
    '''
    求导数的第二种方法
    '''
    return (f(x+delta) - f(x-delta)) / (2 * delta)


# plot the function
xs = np.arange(-10, 11)
plt.plot(xs, f(xs))


learning_rate = 0.1
max_loop = 30

x_init = 10.0
x = x_init
lr = 0.1
x_list = []
for i in range(max_loop):
    #d_f_x = d_f_1(x)
    d_f_x = d_f_2(f, x)
    x = x - learning_rate * d_f_x
    x_list.append(x)
x_list = np.array(x_list)
plt.scatter(x_list,f(x_list),c="r")
plt.show()

print('initial x =', x_init)
print('arg min f(x) of x =', x)
print('f(x) =', f(x))

initial x = 10.0
arg min f(x) of x = 0.012379400392859128
f(x) = 0.00015324955408672073

2、基于梯度的优化方法–牛顿迭代法：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time
%matplotlib inline
from mpl_toolkits.mplot3d import Axes3D
class Rosenbrock():
    def __init__(self):
        self.x1 = np.arange(-100, 100, 0.0001)
        self.x2 = np.arange(-100, 100, 0.0001)
        #self.x1, self.x2 = np.meshgrid(self.x1, self.x2)
        self.a = 1
        self.b = 1
        self.newton_times = 1000
        self.answers = []
        self.min_answer_z = []


    # 准备数据
    def data(self):
        z = np.square(self.a - self.x1) + self.b * np.square(self.x2 - np.square(self.x1))
        #print(z.shape)
        return z

    # 随机牛顿
    def snt(self,x1,x2,z,alpha):
        rand_init = np.random.randint(0,z.shape[0])
        x1_init,x2_init,z_init = x1[rand_init],x2[rand_init],z[rand_init]
        x_0 =np.array([x1_init,x2_init]).reshape((-1,1))
        #print(x_0)


        for i in range(self.newton_times):
            x_i = x_0 - np.matmul(np.linalg.inv(np.array([[12*x2_init**2-4*x2_init+2,-4*x1_init],[-4*x1_init,2]])),np.array([4*x1_init**3-4*x1_init*x2_init+2*x1_init-2,-2*x1_init**2+2*x2_init]).reshape((-1,1)))
            x_0 = x_i
            x1_init = x_0[0,0]
            x2_init = x_0[1,0]
        answer = x_0
        return answer


    # 绘图
    def plot_data(self,min_x1,min_x2,min_z):
        x1 = np.arange(-100, 100, 0.1)
        x2 = np.arange(-100, 100, 0.1)
        x1, x2 = np.meshgrid(x1, x2)
        a = 1
        b = 1
        z = np.square(a - x1) + b * np.square(x2 - np.square(x1))
        fig4 = plt.figure()
        ax4 = plt.axes(projection='3d')
        ax4.plot_surface(x1, x2, z, alpha=0.3, cmap='winter')  # 生成表面， alpha 用于控制透明度
        ax4.contour(x1, x2, z, zdir='z', offset=-3, cmap="rainbow")  # 生成z方向投影，投到x-y平面
        ax4.contour(x1, x2, z, zdir='x', offset=-6, cmap="rainbow")  # 生成x方向投影，投到y-z平面
        ax4.contour(x1, x2, z, zdir='y', offset=6, cmap="rainbow")  # 生成y方向投影，投到x-z平面
        ax4.contourf(x1, x2, z, zdir='y', offset=6, cmap="rainbow")  # 生成y方向投影填充，投到x-z平面，contourf()函数
        ax4.scatter(min_x1,min_x2,min_z,c='r')
        # 设定显示范围
        ax4.set_xlabel('X')
        ax4.set_ylabel('Y')
        ax4.set_zlabel('Z')
        plt.show()

    # 开始
    def start(self):
        times = int(input("请输入需要随机优化的次数："))
        alpha = float(input("请输入随机优化的步长"))
        z = self.data()
        start_time = time.time()
        for i in range(times):
            answer = self.snt(self.x1,self.x2,z,alpha)
            self.answers.append(answer)
        min_answer = np.array(self.answers)
        for i in range(times):
            self.min_answer_z.append((1-min_answer[i,0,0])**2+(min_answer[i,1,0]-min_answer[i,0,0]**2)**2)
        optimal_z = np.min(np.array(self.min_answer_z))
        optimal_z_index = np.argmin(np.array(self.min_answer_z))
        optimal_x1,optimal_x2 = min_answer[optimal_z_index,0,0],min_answer[optimal_z_index,1,0]
        end_time = time.time()
        running_time = end_time-start_time
        print("优化的时间:%.2f秒!" % running_time)
        self.plot_data(optimal_x1,optimal_x2,optimal_z)
if __name__ == '__main__':
    snt = Rosenbrock()
    snt.start()

请输入需要随机优化的次数：100
请输入随机优化的步长0.001
优化的时间:1.91秒!
在这里插入图片描述

随机事件与概率

随机试验、条件概率、事件的独立性

随机试验：
试验是指为了察看某事的结果或某物的性能而从事的某种活动. 在概率论与数理统计中，一个试验如果具有以下3个特点:

(1) 可重复性: 在相同条件下可以重复进行：
(2) 可观察性: 每次试验的可能结果不止一个，并且能事先明确试验的所有可能结果:
(3) 不确定性: 一次试验之前，不能预知会出现哪一个结果。就称这样的试验是一个随机试验，也简称为试验。

样本点和样本空间：
每次试验的每一个结果称为基本事件，也称作样本点，记作 $w_{1}, w_{2}, \cdots$ 全部样本点的集合称为样本空间，记作 $\Omega,$ 则 $\Omega=$ $\left\{w_{1}, w_{2}, \cdots\right\}$

定义：设 $A, B$ 是两个事件，且 $P (A) > 0,$ 则称
$\mid A)=\frac{P(A B)}{P(A)}$
为在事件A发生的条件下，事件B的条件概率。

定义：如果事件B发生的可能性不受事件A发生与否的影响，即
$\mid A)=P(B)$
则称事件B对于事件A独立.显然，若B对于A独立，则 $A$ 对于 $B$ 也一定独立，称事件 $A$ 与事件 $B$ 相互独立.

全概率公式和贝叶斯公式
1、全概率公式
定义：如果事件 $A_{1}, A_{2}, \cdots, A_{n}$ 是一个完备事件组，并且都具有正概率，则有：
$\begin{array}{c} P(B)=P\left(A_{1}\right) P\left(B \mid A_{1}\right)+P\left(A_{2}\right) P\left(B \mid A_{2}\right)+\cdots+P\left(A_{n}\right) P\left(B \mid A_{n}\right) \\ =\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right) \end{array}$
对于任何事件 $B,$ 事件 $\bar{A}$ 构成最简单的完备事件组，根据全概率公式得
$\begin{aligned} P(B) &=P(A B+\bar{A} B)=P(A B)+P(\bar{A} B) \\ &=P(A) P(B \mid A)+P(\bar{A}) P(B \mid \bar{A}) \end{aligned}$
2、贝叶斯公式
定义：设 $A_{1}, A_{2}, \cdots, A_{n}$ 是一完备事件组，则对任一事件 $B, P (B) > 0,$ 有
$P\left(A_{i} \mid B\right)=\frac{P\left(A_{i} B\right)}{P(B)}=\frac{P\left(A_{i}\right) P\left(B \mid A_{i}\right)}{\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right)}$
以上公式就叫贝叶斯公式，可由条件概率的定义及全概率公式证得。
随机变量、概率分布、概率密度函数

1、随机变量
把试验的结果与实数对应起来，随试验结果的不同而变化的量就是随机变量，包含离散型随机变量和连续型随机变量。
例子：
郑一枚匀称的硬币，观察正面、背面的出现情况。这一试验的样本空间为 $\Omega=\{H, T\}$ , 其中，H表示"正面朝上", $T$ 表示“背面朝上”。如果引入变量 $X$ ，对试验的两个结果进行数值化，将 $X$ 的值分别规定为1和0，即
$X=\left\{\begin{array}{ll} 1 & \text { if } \text { 出现 } H \\ 0 & \text { if } \text { 出现 } T \end{array}\right.$
这里的 $X$ 就叫随机变量，因为它能取的值是离散的，我们就叫它离散型随机变量。

2、概率分布
定义：设离散型随机变量 $X$ 的所有可能取值为 $x_{1}, x_{2}, \cdots, x_{n},$ 称为 $X$ 的概率分布。
离散型随机变量 $X$ 的分布律具有下列基本性质：

$p_{k} \geq 0, k=1,2, \cdots$
$\sum_{i=1}^{+\infty} p_{k}=1$

二项分布：
二项分布是一种离散型的概率分布。二项代表它有两种可能的结果：成功或者不成功。每次试验必须相互独立，重复n次，并且每次试验成功的概率是相同的，为 $p$ ; 失败的概率也相同，为 $1 - p$ 。掷硬币就是一个典型的二项分布。当我们要计算抛硬币吻，恰巧有 $x$ 次正面朝上的概率，可以使用二项分布的公式:
$P\{X=k\}=C_{n}^{k} p^{k}(1-p)^{n-k}$
在这里插入图片描述
泊松分布：
如果随机变量 $X$ 的概率分布为
$P\{X=k\}=\frac{\lambda^{k}}{k !} e^{-\lambda}, k=0,1,2, \cdots$
式中， $\lambda>0$ 为常数，则称随机变量 $X$ 服从参数为 $\lambda$ 的泊松(Possion)分布，记为 $\sim P(\lambda)$ .
在这里插入图片描述
3、概率密度函数
定义：若存在非负函数 $f (x)$ , 使一个连续型随机变量 $X$ 取值于任一区间 $(a, b]$ 的概率可以表示为
$P\{a<X \leq b\}=\int_{a}^{b} f(x) d_{x}$

正态分布：
正态分布是概率论中最重要的连续型分布，在19世纪前叶由德国数学家高斯（Gauss）加以推广，故又常称为高斯分布。正态分布的概率密度函数曲线呈钟形，概率密度函数为
$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}$
具有两个参数 $\mu$ 和 $\sigma^{2}$ 。第一参数 $\mu$ 是代表服从正态分布的随机变量的均值，第二个参数 $\sigma^{2}$ 是此随机变量的方差。
如果一个随机变量服从均值为 $\mu,$ 标准差为 $\sigma$ 的正态分布，数学上记作
$\sim N\left(\mu, \sigma^{2}\right)$
我们通常所说的标准正态分布均值为0, 标准差为1的正态分布。
在这里插入图片描述

随机变量的期望与方差

期望的性质：

$E (c) = c$
$E (X + c) = E (X) + c$
$E (k X) = k E (X)$
$E (k X + c) = k E (X) + c$
$E (X + Y) = E (X) + E (Y)$

方差表示了随机变量的变异性，方差越大，随机变量的结果越不稳定。
定义：随机变量，若
$E[X-E(X)]^{2}$
存在，则称其为 $X$ 的方差，记为 $D (X),$ 即
$D(X)=E[X-E(X)]^{2}$
而称 $\sqrt{D(X)}$ 为 $X$ 的标准差或均方差。
由方差的定义和数学期望的性质，可以推出方差的计算公式:
$D(X)=E\left(X^{2}\right)-[E(X)]^{2}$

方差的性质
(1) $D (c) = 0$
(2) $D (X + c) = D (X)$
(3) $D(c X)=c^{2} D(X)$

例子

1、𝜋 的估值：

# pi的估计问题
import numpy as np 
def pi_estimate(n):
    '''
    n为投点的数量
    '''
    n_rand_X = np.random.uniform(-1.0,1.0,n)
    n_rand_Y = np.random.uniform(-1.0,1.0,n)
    ## 判断是否在圆内
    distance = np.sqrt(n_rand_X**2 + n_rand_Y**2)
    dis_n = float(len(distance[distance<=1.0]))
    return 4 * (dis_n / n)

for i in [10,50,100,500,1000,5000,10000,50000,100000,500000,10000000]:
    print("pi的估计值为",pi_estimate(i))

pi的估计值为 2.8
pi的估计值为 2.8
pi的估计值为 2.96
pi的估计值为 3.016
pi的估计值为 3.156
pi的估计值为 3.156
pi的估计值为 3.1208
pi的估计值为 3.13528
pi的估计值为 3.14612
pi的估计值为 3.137168
pi的估计值为 3.1410684

2、电子元件寿命问题：

# 电子元件寿命问题
import numpy as np 

def ele_life(n,c,h,t,lamb):
    """
    参数n:模拟实验的次数
    参数c:每次试验中的c个元件
    参数t:每c个元件中规定的合格品数量
    参数h:小时数
    """
    times = 0.0
    for i in range(n):
        c_rand = np.random.exponential(1/lamb,c)
        c_rand_t = len(c_rand[c_rand>h])
        if c_rand_t > t:
            times = times + 1
    return times / n  

ele_life(10000,1000,18,20,0.2)

3、三门问题：
蒙提霍尔问题：假如你参与一个有主持人的游戏，你会看见三扇关闭了的门，其中一扇的后面有一辆汽车，另外2扇门后面各是一只山羊，你看不见门后面的情况，但主持人知道一切。你被主持人要求在三扇门中选择一扇，但不能打开，在你选定之后主持人开启了另一扇后面有山羊的门，然后你可以坚持原来选定的门，也可以改主意重新选择。问题是：改与不改对选中汽车的概率有影响吗？请使用模拟实验的方法回答该问题。

# 三门问题
import numpy.random as random
def MontyHallProblem(n_test):
    #测试次数
     
    winning_door = random.randint(0,3,n_test)
    first_get  = 0
    change_get = 0
    for winning_doors in winning_door:
        act_door = random.randint(0,3)
        if winning_doors == act_door:
            first_get += 1
        else :
            change_get += 1
    first_pro  = first_get / n_test
    change_pro = change_get / n_test
    compar1    = round(change_get / first_get,2)
    print ("在%d次测试中,坚持原则第一次就选中的次数是%d,改变决定选择另一扇门中奖的次数是%d"% (n_test,first_get,change_get))
    print ("概率分别是{0}和{1}，改变决定选择另一扇门中奖几率是坚持选择的{2}倍".format(first_pro,change_pro,compar1))
MontyHallProblem(100000)

在100000次测试中,坚持原则第一次就选中的次数是33063,改变决定选择另一扇门中奖的次数是66937.概率分别是0.33063和0.66937，改变决定选择另一扇门中奖几率是坚持选择的2.02倍

课程作业（最小解发现）

实验目的：
1、理解等高线的几何含义、如何发现一个函数的最小解；
2、掌握一门绘制函数图形的编程工具；
实验环境：
1、 Python或Java或Matlab或Mathematica
2、如用Python，绘图工具可采用matplotlib或者plotly等。
实验内容：
给定下述Rosenbrock函数
$f(x)=(a-x)^{2}+b(y-x^{2})^{2}$
1）为不同的a,b取值，绘制该函数的3D表面。请问 a,b取值对该表面形状有大的影响吗？，所谓大影响就是形状不再相似。
绘图代码：

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def f(a, b, x, y):
    return (a - x) ** 2 + b * (y - x * x) ** 2

# 画图
def plot_3d(a, b):
    
    # 定义x, y
    x = np.arange(-10, 10, 0.01)
    y = np.arange(-10, 10, 0.01)
    X, Y = np.meshgrid(x, y)# 生成网格数据
    fig = plt.figure()# 创建画布
    ax = Axes3D(fig)
    Z = f(a, b, X, Y)
    ax.plot_surface(X, Y, Z)#画图
    plt.xlabel('X')
    plt.ylabel('Y')
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False#图片中显示中文
    plt.title('Rosenbrock函数')
    plt.show()

1、当a = 0，b = 0时
在这里插入图片描述
2、当 a > 0 ，b = 0时

3、当 a < 0 ，b = 0 时

4、当 a = 0 ，b > 0 时

5、当 a = 0 ，b < 0 时

6、当 a > 0 ，b > 0 时

7、当 a > 0 ，b < 0 时

8、当 a < 0 ，b > 0 时

9、当 a < 0 ，b < 0 时

根据以上分析得到以下结论：
1、当 a = 0, b = 0 时，图像为开口向上的曲面；
2、当 $a\not=0$ , b = 0 时，函数为三维空间中的平面；
3、当 a = 0, $b\not=0$ 及 $a\not=0$ , $b\not=0$ 时，图像的开口方向与 b 的取值有关，当 b > 0 时，图像为开口向上的曲面；当 b < 0 时，图像为开口向下的曲面。

2）编写一个算法来找到它的全局最小值及相应的最小解，并在3D图中标出。分析一下你的算法时空效率、给出运行时间。

1、梯度下降法迭代求解

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def f(a, b, x, y):
    return (a - x) ** 2 + b * (y - x * x) ** 2

#求解梯度向量
def grad(a, b, x, y):
    return np.array([2 * x - 2 * a + 4 * b * x * (x * x - y), 2 *b * (y - x * x)])

#梯度下降
def gradient_descent(a, b, grad, cur_x = np.array([0.1, 0.1]), learning_rate = 0.002, precision = 0.001, max_iters = 10000):
    for i in range(max_iters):
        grad_cur = grad(a, b, cur_x[0], cur_x[1])
        if np.linalg.norm(grad_cur, ord = 2) < precision:
            break
        cur_x = cur_x - grad_cur * learning_rate
        print("第", i, "次迭代：x 值为 ", cur_x)
    print("局部最小值 x =", cur_x)
    return cur_x

2、牛顿法法迭代求解

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def f(a, b, x, y):
    return (a - x) ** 2 + b * (y - x * x) ** 2

#求解梯度向量
def grad(a, b, x, y):
    return np.array([2 * x - 2 * a + 4 * b * x * (x * x - y), 2 *b * (y - x * x)])

#求解Hession矩阵
def H(a, b, x, y):
    return np.array([[12 * b * x * x - 4 * b * y + 2, -4 * b * x],[-4 * b * x, 2 * b]])

#牛顿迭代
def newton_iter(a, b, grad, H, cur_x, learning_rate, precision, max_iters = 10000):
     """
     :param grad: 目标函数的梯度
     :param cur_x: 当前 x 值，通过参数可以提供初始值
     :param learning_rate: 学习率，也相当于设置的步长
     :param precision: 设置收敛精度
     :param max_iters: 最大迭代次数
     :return: 局部最小值
     """
    for i in range(max_iters):
        Hess = H(a, b, cur_x[0], cur_x[1])
        Hess_inv = np.linalg.inv(Hess)
        grad_cur = grad(a, b, cur_x[0], cur_x[1])
        cur_x0 = cur_x
        cur_x = cur_x - np.dot(Hess_inv, grad_cur)
        if np.linalg.norm(cur_x - cur_x0 , ord = 2) < precision:
            break
        print("第", i, "次迭代：x 值为 ", cur_x)
    print("局部最小值 x =", cur_x)
    return cur_x

参考文献：
[1]:https://github.com/datawhalechina/ensemble-learning

Codewith_jing

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021-07-13

Datawhale组队学习之集成学习——Task1 数学基础集成学习高等数学随机事件与概率课程作业（最小解发现）集成学习高等数学函数的定义定义:设数集 D⊂R, 则称映射 f:D→R 为定义在 D 上的函数,通常简记为 D \subset {\mathbf{R}}, \text { 则称映射 } f: D \rightarrow \mathbf{R} \text { 为定义在 } D \text { 上的函数,通常简记为 }D⊂R,&n
复制链接

扫一扫