西风瘦马1912-CSDN博客

原创【概率统计】贝叶斯公式解决三门问题

今天看了三门问题。总结一下解法和思路三门问题源于美国一个现场游戏的电视节目。游戏是这样的：你面前有A、B、C三扇门，其中一扇门后面停着一辆轿车。你需要在这三扇门中任选一扇。三个选一个，这我们都知道，中奖概率就是。不过，这个游戏有一个很有意思的环节：在你做出选择之后，主持人会从剩下的两扇门中选一扇门打开。注意，打开的这扇门背后一定没有汽车。所以，这相当于为你排除了一个错误选项。现在给你一次更换选择的机会，你可以坚持最初的选择，也可以换一扇门打开，你要不要换？换还是不换？

2023-07-21 05:26:07 1488

原创【李航统计学习笔记】第十章：隐马尔科夫模型

蓝色圆圈代表状态变量，绿色圆圈代表观测变量。模型参数及符号：状态集合： Q={q1,…qN}Q=\left\{q_{1, \ldots} q_{N}\right\}Q={q1,…qN}预测集合： V={v1,…vM}V=\left\{v_{1, \ldots} v_{M}\right\}V={v1,…vM}状态序列： I={i1,…iT}it⊂QI=\left\{i_{1, \ldots} i_{T}\right\} \quad i_{\mathrm{t}} \subset QI={i1,…iT

2022-08-15 05:27:34 183 1

原创【李航统计学习笔记】第九章：EM算法

EM算法通过迭代求解观测数据的对数似然函数的极大化，实现极大似然估计。EM的极大似然估计中包含两个步骤：E步求期望和M步求极大。EM算法在每次迭代后均提高观测数据的似然函数值。EM算法通过迭代逐步近似极大化L。为了每次都能够极大化LLL，需保证每个步骤中L(θ)−L(\theta)-L(θ)−L(θ(i))L(θ(i))大于0。通过找到当前L(θ)−L(θ(i))L(θ)−L(θ(i))......

2022-08-15 05:25:17 287

原创【李航统计学习笔记】第八章：adaboost

adaboost

2022-08-11 17:38:25 266

原创【李航统计学习笔记】第七章：支持向量机

支持向量机

2022-08-11 17:03:04 182

原创【李航统计学习笔记】第六章：Logistic regression

f(x)=sign⁡(w⋅x+b)f(x)=\operatorname{sign}(w \cdot x+b)f(x)=sign(w⋅x+b)思考：感知机的缺陷：P(Y=1∣x)=exp⁡(w⋅x)1+exp⁡(w⋅x)P(Y=0∣x)=11+exp⁡(w⋅x)\begin{aligned}&P(Y=1 \mid x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)} \\&P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x)}\

2022-08-01 05:54:48 111

原创【李航统计学习笔记】第五章：决策树

（尾巴：补充一些例子）例子4.1：女朋友和妈妈掉河里了，路人拿出来3颗豆, 两颗红豆1颗绿豆。如果我抽中红豆救女朋友, 抽中绿豆救妈妈。我和路人各自抽了一颗, 路人发现自己抽中的是绿豆，他想用剩下的那颗和我换，我换不换？换不换豆女朋友活下去的概率一样吗？直觉来讲：换不换豆我抽中红豆的概率应该都是 1/31 / 31/3 。这时路人跟我说他的是绿豆, 排除一颗, 我抽中红豆的概率是 1/21 / 21/2 。换不换概率都是 1/21 / 21/2 。计算一下：如果更换，那么其实就是重新在两个豆子中选了，所以

2022-07-31 22:45:29 292

原创【李航统计学习笔记】第四章：朴素贝叶斯

（尾巴：补充一些例子）例子4.1：女朋友和妈妈掉河里了，路人拿出来3颗豆, 两颗红豆1颗绿豆。如果我抽中红豆救女朋友, 抽中绿豆救妈妈。我和路人各自抽了一颗, 路人发现自己抽中的是绿豆，他想用剩下的那颗和我换，我换不换？换不换豆女朋友活下去的概率一样吗？直觉来讲：换不换豆我抽中红豆的概率应该都是 1/31 / 31/3 。这时路人跟我说他的是绿豆, 排除一颗, 我抽中红豆的概率是 1/21 / 21/2 。换不换概率都是 1/21 / 21/2 。计算一下：如果更换，那么其实就是重新在两个豆子中选了，所以

2022-07-24 23:24:29 183

原创【李航统计学习笔记】第三章：KNN

KNN模型实际上对应于。算法3.1输入训练数据集T=[(x1,y1),…,(xN,yN)],xi∈X⊆Rn,yi∈Y={c1,⋯,cK},实例特征向量x。Nk(x)Nk(x)xy输出实例x所属的类别y。

2022-07-23 21:29:08 205

原创【李航统计学习笔记】第二章：感知机

感知机（Perceptron）针对的是二分类的线性模型，其输入为实例的特征向量，输出为实例的类别，取+1、-1。假设输入空间是X⊆RnX \subseteq R^{n}X⊆Rn输入变量是x∈Xx \in Xx∈X输出空间是Y={+1,−1}Y=\{+1,-1\}Y={+1,−1}输出变量是y∈{+1,−1}y \in\{+1,-1\}y∈{+1,−1}由输入空间到输出空间满足下列函数：f(x)=sign⁡(w⋅x+b)f(x)=\operatorname{sign} (w \cdot x+b)f(x)

2022-07-20 22:21:04 146

原创【李航统计学习笔记】第一章：统计学习及监督学习概论

监督学习的实现步骤:得到一个有限的训练数据集合确定模型的假设空间，也就是所有的备选模型确定模型选择的准则，即学习的策略实现求解最优模型的算法通过学习方法选择最优模型利用学习的最优模型对新数据进行预测或分析训练集：T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,

2022-07-20 22:20:00 238

原创【西瓜书笔记】13. 隐马尔科夫模型（3）

近似算法近似算法思想：在每个时刻t选择在该时刻最有可能出现的状态it∗i_{t}^{*}it∗，从而得到一个状态序列I∗=(i1∗,i2∗,…,iT∗)I^{*}=\left(i_{1}^{*}, i_{2}^{*}, \ldots, i_{T}^{*}\right)I∗=(i1∗,i2∗,…,iT∗)，将它作为预测的结果。具体算法如下：给定隐马尔科夫模型λ\lambdaλ和观测序列OOO, 在时刻t处于状态qiq_iqi的概率γt(i)\gamma_{t}(i)γt(i)是γt(i)=α

2022-04-04 03:24:33 220

原创【西瓜书笔记】12. 隐马尔科夫模型（2）

监督学习方法假设已给出训练数据包含S个长度相同的观测序列和对应的状态序列{(O1,I1),(O2,I2),…,(OS,IS)}\left\{\left(O_{1}, I_{1}\right),\left(O_{2}, I_{2}\right), \ldots,\left(O_{S}, I_{S}\right)\right\}{(O1,I1),(O2,I2),…,(OS,IS)}那么可以利用极大似然估计法来估计隐马尔科夫模型，具体方法如下转移概率aija_{ij}aij的估计：aij=Ai

2022-04-03 00:55:23 1240

原创【西瓜书笔记】11. 隐马尔科夫模型（1）

定义定义：隐马尔科夫模型(Hidden Markov Model, HMM)是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔科夫链速记生成的状态的序列，成为状态序列。每一个状态生成一个观测，而由此产生的观测的随机序列，成为观测序列，序列的每一个位置又可以看做是一个时刻。假设Q是所有N种可能的状态的集合：Q={q1,q2,…,qN}Q=\left\{q_{1}, q_{2}, \ldots, q_{N}\right

2022-03-27 00:25:03 761

原创【西瓜书笔记】10. 高斯混合模型

定义定义：P(x)=∑i=1kαi⋅ϕ(x∣μi,Σi)P(\boldsymbol{x})=\sum_{i=1}^{k} \alpha_{i} \cdot \phi\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)P(x)=i=1∑kαi⋅ϕ(x∣μi,Σi)该模型共由k个混合成分组成，每个混合成分对应一个高斯分布，其中， x∈Rn\boldsymbol{x} \in \mathbb{

2022-03-21 04:29:21 360

原创【西瓜书笔记】9. EM算法（下）

接上一篇Q(θ∣θ(i))=∑j=1N{μj(i+1)ln⁡[πpyj(1−p)1−yj]+(1−μj(i+1))ln⁡[(1−π)qyj(1−q)1−yj]}Q\left(\theta \mid \theta^{(i)}\right)=\sum_{j=1}^{N}\left\{\mu_{j}^{(i+1)} \ln \left[\pi p^{y_{j}}(1-p)^{1-y_{j}}\right]+\left(1-\mu_{j}^{(i+1)}\right) \ln \left[(1-\pi) q^{

2022-03-03 01:42:41 87

原创【西瓜书笔记】9. EM算法（中）

EM算法求解三硬币模型《统计学习方法》例9.1（三硬币模型）：假设有3枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别是 π\piπ ，ppp 和 qqq 。进行如下掷硬币试验: 先掷硬币A，根据其结果选出硬币B或硬币C，正面选硬币B，反面选硬币C;然后掷选出的硬币，掷硬币的结果，出现正面记作1，出现反面记作0;独立地重复n次实验(这里，n=10)，观测结果如下1,1,0,1,0,0,1,0,1,11,1,0,1,0,0,1,0,1,11,1,0,1,0,0,1,0,1,1假设只能观测到掷

2022-03-03 01:40:53 233

原创【西瓜书笔记】8. EM算法（上）

EM算法的引入引入EM算法的原因：概率模型有时候既含有观测变量，又含有隐变量或者潜在变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或者贝叶斯估计法估计模型参数。但是当模型含有隐变量时，就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法。EM算法的例子《统计学习方法》例9.1（三硬币模型）：假设有3枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别是 π\piπ ，ppp 和 qqq 。进行如下掷硬币试验: 先掷硬币A，根据其结果选

2022-02-26 10:47:41 565

原创【西瓜书笔记】补充5：图模型，EM算法，神经网络补充

概率图模型把概率模型用图的方式表示出来。条件随机场(crf)工业界用的最多，能很自然的与深度学习融合到一起。从logistic到crf假设一共有nnn个标签类别{yi}i=1n\left\{y_{i}\right\}_{i=1}^{n}{yi}i=1n, mmm个特征，{xi}i=1m,x1=1\left\{x_{i}\right\}_{i=1}^{m}, x_{1}=1{xi}i=1m,x1=1，这里x1x_1x1是偏置。所以有：p(y1∣x)=1Z(x)exp⁡(∑i=1mθ1,i

2022-02-26 02:22:04 674

原创【西瓜书笔记】补充4：降维与特征选择

1.维度灾难与数据维度维度灾难的理解数据特征维度非常多的时候引起的灾难。假设在每一个特征空间中，取值范围都是[0, 1]。如果一个样本能够cover住0.1×0.1×0.10.1\times0.1\times0.10.1×0.1×0.1小空间中的所有其他样本，也就是这个样本能够作为其他所有在这个小空间中样本的预测值（KNN近邻思想）。那么如果有3个特征维度，就需要10310^{3}103个这样的小立方空间去cover所有的空间。如果有4个特征维度，就需要10410^{4}104个这样的小立方空间去co

2022-02-21 04:34:30 881

原创【西瓜书笔记】补充3：树模型补充.md

CART：Classification and Regression Tree. 基础更多集中在CART树模型中。树模型的基本思路就是对训练集进行划分，使得划分后的集合的纯度变得“更纯”。因此问题的要点在于：如何定义集合的纯度。（划分前和划分后）如何对集合进行划分。（选择哪个特征和阈值）如何确定叶子节点的值。（决定了预测结果）CART模型纯度CART模型既能解决分类，也能解决回归问题。在面对分类问题的时候，使用熵和GINI指数。在面对回归问题时，使用方差。GINI指数的公式Gini⁡.

2022-02-14 09:50:25 655

原创【西瓜书笔记】补充2：SVM建模方式、SVM优化方法和核函数

一、SVM的建模模型一：从logistic到SVMLogistic损失函数如下：J(θ)=C∗[1n∑i=1n(y(i)log⁡(p(i))+(1−y(i))log⁡(1−p(i)))]+∥θ∥2J(\theta)=\mathrm{C}*\left[\frac{1}{n} \sum_{i=1}^{n}\left(y^{(i)} \log \left(p^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-p^{(i)}\right)\right)\rig

2022-02-07 04:03:40 1903

原创【西瓜书笔记】补充1：logistic回归及其损失函数，梯度下降推导

Logistic回归理论知识补充建模流程假设我们建立一个二分类模型。假设有两个人A、B在争论如何对一个新样本xxx进行0-1二分类，他们两个分别对新样本进行打分，如果A的分数大于B的分数，则样本被预测为1，反之则被预测为0。假设两人的打分分数可以通过线性回归进行预测建模y1=θ1x+ϵ1,ϵ1∼N1(0,δ)y2=θ2x+ϵ2,ϵ2∼N2(0,δ)\begin{aligned}&y_{1}=\theta_{1} x+\epsilon_{1}, \epsilon_{1} \sim N_{1

2022-02-03 12:46:05 1632

原创【西瓜书笔记】7.神经网络结构

7.1 感知机7.1.1 感知机定义定义：假设输入空间是X⊆Rn\mathcal{X} \subseteq R^{n}X⊆Rn，输出空间是Y={1,0}\mathcal{Y}=\{1,0\}Y={1,0}。输入x∈Xx \in \mathcal{X}x∈X表示实例的特征向量，对应于输入空间的点;输出y∈Yy \in \mathcal{Y}y∈Y表示实例的类别。由输入空间到输出空间的如下函数f(x)=sgn⁡(wTx+b)f(\boldsymbol{x})=\operatorname{sgn}\l

2022-01-31 05:25:54 1629

原创【西瓜书笔记】6.极大似然估计与朴素贝叶斯

6.1 贝叶斯判定准则贝叶斯判定准则:为最小化总体风险，只需在每个样本上选择那个能使条件风险R(c∣x)R(c \mid x)R(c∣x)最小的类别标记，即h∗(x)=arg⁡min⁡c∈YR(c∣x)h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c \mid \boldsymbol{x})h∗(x)=c∈YargminR(c∣x)此时，h∗h^{*}h∗称为贝叶斯最优分类器【这里的R和h∗h^{*}h∗针对

2022-01-30 08:00:08 874

原创【西瓜书笔记】5. 软间隔与支持向量机回归

5.1 软间隔SVM之前我们使用的是严格线性可分的硬间隔SVM：min⁡w,b12∥w∥2 s.t. 1−yi(wTxi+b)⩽0,i=1,2,…,m\begin{array}{ll}\min _{\boldsymbol{w}, b} & \frac{1}{2}\|\boldsymbol{w}\|^{2} \\\text { s.t. } & 1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+

2022-01-26 09:37:37 180

原创【西瓜书笔记】4. 支持向量机

4.1 超平面wTx+b=0\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0wTx+b=0法向量恒垂直于超平面和法向量方向相同的点(与w\boldsymbol{w}w夹角θ\thetaθ小于90度的向量)代入超平面方程恒大于等于0，否则恒小于等于0 (与w\boldsymbol{w}w夹角θ\thetaθ大于90度的向量)法向量和位移项唯一确定一个超平面等倍缩放法向量和位移项超平面不变。点到超平面距离公式推导证明：r=∣wTx+b∣∥w∥

2022-01-24 01:59:48 625

原创第八周【任务2】自适应技术与生成对抗网络（GAN）（笔记）

1. 初始参数的网络自适应方法1：用已有数据集（ImageNet）先训练一个模型，在新数据集上，以此模型作为初始模型做fine tuning得到新模型。也就是传统的pretrain + fine tuning。缺点：新训练出来的模型可能更偏向于新数据集的分布和特征。方法2：基于KLD的方法在fine tuning的过程中考虑新数据和老数据集。新训练的模型不要偏离原有的数据集太远。假设我们有两个数据集，旧数据集得到的模型A，新数据集得到的模型B。新的数据集是xxx。于是我们有我们使用的损失函数

2021-08-07 04:33:58 522

原创 Week4【任务1】第一节总结：权值初始化

1.梯度消失与爆炸H2=H1∗W2\mathrm{H}_{2}=\mathrm{H}_{1} * \mathrm{W}_{2}H2=H1∗W2ΔW2=∂Loss∂W2=∂Loss∂out×∂out∂H2×∂H2∂w2=∂Loss∂out×∂out∂H2×H1\begin{aligned}\Delta W_{2} &=\frac{\partial L o s s}{\partial W_{2}}=\frac{\partial L o s s}{\partial o u t} \tim

2021-04-01 03:14:48 84

原创第八周【任务1】神经网络训练加速(笔记)

训练加速主要针对并行加速1. 基于数据的并行1.1 模型平均假设我们有10000条数据，分为10块，一块1000条数据。又假设我们有10个GPU并行训练10块数据，那么我们要想方设法让他们彼此交流。假设10个GPU的参数矩阵都初始为w0w_{0}w0，每个GPU都采用batch=100.在第一轮训练之后，10个GPU有了10个不同的w1w_{1}w1，分别传回到server。然后server做平均得到一个统一的w1ˉ\bar{w_{1}}w1ˉ。然后统一返回平均好的w1ˉ\bar{w_{

2021-02-05 01:50:00 165

原创第八周【任务1】神经网络推理加速(笔记)

推理加速主要针对串行加速1. SVD分解Am×n=Vm×mT(λ112λ212⋱)Un×nA_{m \times n}=V_{m \times m}^{T}\left(\begin{array}{cccc}\lambda_{1}^{\frac{1}{2}} & & \\& & \lambda_{2}^{\frac{1}{2}} & \\& & & \ddots & \\& & &\end{arra

2021-02-03 08:53:50 478

原创 26. Implementation of Thumbnail service_part1

Handler.py首先从环境变量中提取默认值s3 = boto3.client('s3')size = int(os.environ['THUMBNAIL_SIZE'])Events block.在aws lambda里面有很多event可以被trigger, 比如s3, dynamodb等等。这里我们使用s3functions: s3-thumbnail-generator: handler: handler.s3_thumbnail_generator events:

2021-01-18 13:43:29 92

原创 24.Overview of S3 Thumbnail Generator Service

To build our Thumbnail Service, we will need:S2 eventsFunction timeouts and memoryIAM permissionplugins to deploy python dependencies (need docker installed)Custom variablesEnvironment variables

2021-01-18 13:40:33 61

原创 22. VPC for Lambda Functions

VPC: Virtual Private cloudsMany companies use VPC to privately deploy their applicationsBy default Lambda functions are not launched in a VPCBut you can launch Lambda in your VPC, so that:Your Lambda functions can securely access your EC2 instances.

2021-01-18 13:39:39 64

原创 21.Environment Variables in AWS Lambda

创建文件夹环境sls create --template aws-python --path python-example-environment-variables部署文件夹中的代码Sls deploy -v函数可以从wide environment， provider level继承变量，也可以从函数定义的时候z在function level把Provider level的变量覆盖environmentFIRST_NAME...

2021-01-18 13:36:48 176

原创第七周【任务2】门控循环单元网络GRU的前向、后向传播

门控循环单元(GatedRecurrentUnit，GRU)网络是一种比 LSTM 网络更加简单的循环神经网络。和 LSTM 不同，GRU 不引入额外的记忆单元，GRU 网络引入一个更新门(Up-date Gate)来控制当前状态需要从历史状态中保留多少信息(不经过非线性变换)，以及需要从候选状态中接受多少新信息。同时还有一个重置门，控制从历史状态中有多少信息被写入到当前的候选状态中，重置门的值越小，历史状态的信息被写入的越少。前向传播下图是GRU的结构图。从中可以看出，有两个门，一个非线性激活函

2021-01-11 14:31:12 779 1

原创第七周【任务2】长短期记忆网络LSTM的前向、后向传播

LSTM 通过刻意的设计来避免长期依赖问题。"记住"长期的信息在实践中是 LSTM 的默认行为，而非需要付出很大代价才能获得的能力!之前的所有RNN都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中，这个重复的模块只有一个非常简单的结构，例如一个 tanh/sigmoid激活函数构成的隐藏层。LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个门，以一种非常特殊的方式进行交互。Traditional LSTM结构这里我们考虑一个完整复杂的LSTM

2021-01-11 04:49:05 639 2

空空如也

空空如也