算法基础
文章平均质量分 65
算法基础
小yuning
ss
展开
-
scipy.cluster.vq
参考资料:https://docs.scipy.org/doc/scipy/reference/cluster.vq.htmlvq是vector quantization的缩写。code_book相当于密码本。保存着对应的k个类别的中心。给定观测值,就会寻找离那个中心点最近,即为对应的类别。且会返回最近的距离。from numpy import arrayfrom scipy.cluster.vq import vqcode_book = array([[1.,1.,1.],[100,0.6原创 2022-02-11 18:36:00 · 896 阅读 · 0 评论 -
什么是吉布斯采样(Gibbs Sampling)
目录吉布斯采样的前世今生马尔可夫链MCMC采样M-H采样吉布斯采样(Gibbs)吉布斯采样原理二维情况高维情况吉布斯采样过程参考资料吉布斯采样的前世今生简单的分布我们可以直接采样,比如正太分布,均匀分布。不太好采样的分布,我们可以利用容易采样的分布,然后使用接受拒绝策略进行采样 ,祥见蒙特卡洛方法。吉布斯采样是为了解决上述方法无法解决的情况:不知道分布p(x,y)p(x,y)p(x,y),只知道其条件分布p(x∣y),p(y∣x)p(x|y),p(y|x)p(x∣y),p(y∣x),无法利用上原创 2022-01-19 16:30:42 · 9060 阅读 · 1 评论 -
conv卷积基础
cnn基础一维卷积 Conv1d输入参数输出参数计算方法二维卷积 Conv2d三维卷积 Conv3d原创 2022-01-11 10:57:47 · 543 阅读 · 0 评论 -
lstm结构介绍
lstm结构介绍lstm有两个状态:ctc_tct表示t时刻细胞状态,细胞状态更新慢;hth_tht表示t时刻隐藏状态,隐藏状态更新快;lstm有三个门:it=σ(Wixt+Uiht−1+bi)i_t=\sigma(W^ix_t+U^ih_{t-1}+b^i)it=σ(Wixt+Uiht−1+bi) : 输入门ft=σ(Wfxt+Ufht−1+bf)f_t=\sigma(W^fx_t+U^fh_{t-1}+b^f)ft=σ(Wfxt+Ufht−1+bf) : 遗忘门ot=原创 2021-12-30 14:01:54 · 943 阅读 · 0 评论 -
GBDT vs RandomForest
这里写目录标题1 随机森林:2 GBDT3 异同点1 随机森林:bagging算法,可并行适用于高维特征的数据,特征少的时候不适用随机性体现在两个方面:1:随机从M个特征中选择m个特征,m应远小于M2:随机从样本中以有放回抽样的方式,抽样N次,形成训练集。未抽到的作为验证集。每棵树都完整成长而不会剪枝。对异常数据比较鲁棒适用于分类,回归效果可能不好,因为他无法输出连续的数据。减少的是模型的方差2 GBDTGBDT(Gradient Boosting Decision Tree),原创 2021-12-23 18:02:12 · 1697 阅读 · 0 评论 -
熵,条件熵,信息增益,信息增益比, gini系数 以及 交叉熵,相对熵 计算公式
熵,信息增益和gini系数熵越大,不确定性越大熵:H(X)=E[−logpk]=−∑kpklogpkH(X)=E[-log{p_k}]=-\sum_k{p_k \log{p_k}}H(X)=E[−logpk]=−∑kpklogpk信息增益,就是给定条件前的熵减去给定条件后的熵,看熵减少多少条件熵: H(X∣Y)=∑yp(y)H(X∣Y=y)H(X|Y)=\sum_y{p(y) H(X|Y=y)}H(X∣Y)=∑yp(y)H(X∣Y=y)信息增益: g(X,Y)=H(X)−H(X∣原创 2021-12-23 15:24:02 · 1870 阅读 · 0 评论 -
随机森林如何评估特征重要性
随机森林如何评估特征重要性sklearn中randomforest自带特征重要性评估功能 ,参考链接。就是这个属性:feature_importances_,原理是使用基尼系数评估特征的重要性。但是这个评估对有许多unique特征值的高基数特征,效果不好。此时,可以使用sklearn.inspection.permutation_importance进行评估。sklearn.inspection.permutation_importance 重排列特征重要性也是一种评估特征重要性的方法。就是将测试集原创 2021-12-23 10:27:59 · 1839 阅读 · 0 评论 -
梯度提升 vs 梯度下降 || boosting,bagging和stacking
1 梯度提升和梯度下降的区别:梯度下降更新的是参数。梯度提升更新的是函数。比如loss=f(x)=x2loss=f(x)=x^2loss=f(x)=x2如果是梯度下降,每次迭代就会更新x,xn=xn−1+δnx, x_n=x_{n-1}+\delta_nx,xn=xn−1+δn, δn\delta_nδn是第n次迭代参数的增量,是一个值,方向是沿着负梯度的方向,所以这个方法叫梯度下降。如果是梯度提升,每次迭代就会更新f,fn(x)=fn−1(x)+Δfn(x)f, f_n(x)=f原创 2021-12-23 09:12:42 · 465 阅读 · 0 评论 -
什么是补码
begin本文中我们以八位数为例,来说明补码。八位数中第一位是符号位,后面七个是数位。符号位0表示正,1表示负。a-b=a+b的补码,就跟当前8点,如果想调到5点,你可以减3,也可以加9。3的补码就是9。b的补码=模-b。八位数的模是 28=1000000002^8=10000000028=100000000。正数整数的补码就是其自身,比如2,为00000010.正数加法,直接加,如下: 3+2 =00000011+00000010 =00000101 =5负数负数以补码原创 2021-07-21 15:48:46 · 1751 阅读 · 5 评论 -
负二项分布
负二项分布定义1负二项分布定义:设成功概率ppp,失败概率1−p1-p1−p,独立实验,直到rrr次失败,则成功次数k服从负二项分布:NB(k;r,p)=Ck+r−1r−1(1−p)rpk,k=0,1,2,3……NB(k;r,p)=C_{k+r-1}^{r-1}(1-p)^rp^k, k=0,1,2,3……NB(k;r,p)=Ck+r−1r−1(1−p)rpk,k=0,1,2,3……均值:μ=rp1−p\mu=\frac{rp}{1-p}μ=1−prp方差:σ2=rp(1−p)2\s原创 2021-07-07 09:56:11 · 3525 阅读 · 1 评论 -
分位数损失函数(quantile loss)
分位数损失函数(quantile loss)什么是分位数损失函数python代码运行结果什么是分位数损失函数q分位数的损失函数为:loss(y,yp)=q∗max(0,y−yp)+(1−q)∗max(0,yp−y,),loss(y,y^p) = q*max(0,y-y^p)+(1-q)*max(0,y^p-y,),loss(y,yp)=q∗max(0,y−yp)+(1−q)∗max(0,yp−y,),其中yyy是真实值,ypy^pyp是预测值。python代码import numpy as原创 2021-07-06 09:53:50 · 4656 阅读 · 1 评论 -
什么是ACF,PACF?
版权声明:本文为博主原创文章,未经博主允许不得转载。原创 2019-02-27 19:43:08 · 34009 阅读 · 0 评论