自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (6)
  • 收藏
  • 关注

原创 Failed to initialize NVML: Driver/library version mismatch

可以看到系统中有515.65.01版本驱动,但是同时存在535.171.04版本。

2024-05-29 15:46:01 168 1

转载 指令集、架构、处理器、内核,芯片之间的关系

处理器、内核:是芯片内部的核心单元模块,是在硬件层面按照指令集的设计规范,把它实现出来,可以把内核当作指令集的实物化,但是硬件的设计方案各有不同,所以同一个版本的指令集可能也有不同版本的内核,我们经常说的cotex-m3,cotex-m4,cotex-A7等等就是属于内核层面的概念。是指arm公司把内核的核心电路图,把它的内核测试方法和测试程序提供给第三方公司,第三方公司获取到内核到内核授权之后,基本上可以找工厂流片生产内核了,我们很多熟悉的半导体公司,都是获取了内核授权,比如st,nxp,ti,

2023-08-11 10:44:01 1352

原创 Ubuntu20.04+RTX3090ti+cuda11.6+cudnn8.4.1+pytorch安装过程记录

为了快速配置基于pytorch的深度学习工作环境,现对Ubuntu20.04 +RTX3090ti +cuda11.6+ cudnn8.4.1 +pytorch安装过程进行简要记录。为了保持权威性,在此过程中,本文尽量引用官方安装指导。

2022-08-13 23:17:49 5798 2

转载 pytorch模型不同层设置不同的学习率

在神经网络模型训练中, 我们通常都会有一个特征提取网络backbone, 例如YOLO使用的darknet SSD使用的VGG-16。为了达到比较好的训练效果, 往往会加载预训练的backbone模型参数, 然后在此基础上训练检测网络, 并对backbone进行微调, 这时候就需要为backbone设置一个较小的lr。class net(torch.nn.Module): def __init__(self): super(net, self).__init__()

2021-05-25 21:14:31 827 2

原创 主成分分析(PCA)之去相关思路

预备知识1、x∈Rd×1\boldsymbol x\in\R^{d\times 1}x∈Rd×1为随机变量,x=[x1,x2,...,xd]T\boldsymbol x=[x^1,x^2,...,x^d]^Tx=[x1,x2,...,xd]T,E[x]=0E[\boldsymbol x]=\boldsymbol 0E[x]=0,协方差:Var[x]=[cov(x1,x1)cov(x1,x2)...

2020-05-10 22:14:12 1901

原创 从线性方程组求解到最小二乘问题

关键词:线性方程组,矩阵,秩,矩阵逆,伪逆,左逆,右逆,线性方程组求解:Ax=yAx=yAx=y已知A∈Rm×nA\in\R^{m\times n}A∈Rm×n和y∈Rmy\in\R^my∈Rm,求x∈Rnx\in\R^nx∈Rn。mmm为方程个数(行数),nnn为未知数个数(列数),根据mmm,nnn的大小关系,可以分为3类:(1)m>nm>nm>n:超定方程组,(...

2020-05-02 23:43:59 1699

原创 约束优化&拉格朗日乘子法&拉格朗日对偶解法的关系

本文梳理一些约束优化里问题常见的一些拉格朗日乘子法与拉格朗日对偶的关系。经常看到一些错误说法:就是拉格朗日对偶解法就是针对不等式约束优化问题的拉格朗日乘子法,实际上并不是。1、约束优化问题约束优化问题,分为等式约束优化问题和不等式约束优化问题。经常利用拉格朗日乘子法求解。2、等式约束优化问题等式约束优化问题相对简单,高等数学中一般都有拉格朗日乘子法求极值的介绍,这里不做过多介绍。f(x)...

2020-04-28 11:51:22 853

原创 标注平滑技术(Label Smoothing)

在分类任务中,常用交叉熵损失函数来优化模型。但是交叉熵损失函数中的标注为one-hot向量,在计算损失时,仅仅1标签对应的概率产生了损失,而其它0标签对应的概率无论如何都不会产生损失,这样就浪费了有用信息,容易让模型只关注提高标签对应的概率,而不考虑0标签对应的概率,不利于模型的学习。标注平滑技术对one-hot向量进行了改进,简而言之就是想one-hot向量中的零元素改成一个小的整数,这样在0...

2020-04-19 22:58:53 396

原创 深度学习之CNN网络结构

由于深度学习的方便灵活,其受到了CV以及NLP领域的的极大关注,特别是CV领域,随着深度学习网络结构的层出不穷,CV领域的baseline被极大地提升。本文回顾总结CV领域中几种网络结构的特点及其动机。1、LeNet2层卷积,3层全连接层,现在看来该网络稀松平常、没有任何特点,但是在当时,LeNet是开创性的工作。2、AlexNet (2012)5层卷积,3层全连接层。和LeNet相比,第...

2020-04-19 22:00:03 1059

原创 常用神经网络参数初始化方法

一般神经网络被随机初始化。随机从均匀分布或者高斯分布中采样。1、Xavier初始化适用于tanh,sigmoid激励函数:w∼U(−scale,+scale)w \sim U(-scale,+scale)w∼U(−scale,+scale);scale=6nin+noutscale=\sqrt{\frac{6}{n_{in}+n_{out}}}scale=nin​+nout​6​​.w∼...

2020-04-19 09:42:32 505

原创 tensorflow 简单介绍

tensorflow是谷歌公司开发的一个计算框架,类似于NumPy,但是比后者功能强大的多。tensorflow可以快速开发一些机器学习算法,特别是深度学习算法。tensorflow的核心如字面意思就是张量流。1、张量(tensor)张量的意思可以简单理解为一个高维数组。2、计算图或者流(flow)而计算图就是有一系列张量节点和计算节点组成的一个图,其描述了一个表达式的计算过程。在神经网络...

2020-04-17 18:04:51 1676

原创 关于归一化与标准化

1、归一化是什么狭义的归一化(最大最小归一化)是指对多维数据(特征)x=[x1,...,xi,...xd]x=[x_1,...,x_i,...x_d]x=[x1​,...,xi​,...xd​]的每一维进行xi′=xi−min(xi)max(xi)−min(xi)x'_i=\frac{x_i-min(x_i)}{max(x_i)-min(x_i)}xi′​=max(xi​)−min(xi​)xi...

2020-04-11 13:22:12 359

原创 viterbi算法与动态规划

viterbi算法

2020-02-23 14:19:32 855

原创 梯度提升(Gradient Boosting )

1、梯度提升梯度提升方法的特点在于损失函数比较复杂,难以优化。一般的提升方法的损失函数比较简单。比如Adaboost中,提升模型是多个弱基学习器的加权和,当基于指数损失函数和前向分步算法优化模型时,最终推导结果相当于:每一步仅需要学习当前基学习器使得所有样本的加权损失最小。或者在一般提升回归树中,提升模型是多个弱基学习器的和,当基于平方误差损失函数和前向分步算法优化模型时,最终推导结果相当...

2020-02-05 15:00:10 752

原创 梯度下降、牛顿法与拟牛顿法

1、梯度下降法梯度下降,从某一初始点出发,找到最陡或者梯度最大的方向,以一定步长沿着最陡的方向往低处走,知道遇到极小值。属于一阶优化方法。2、牛顿法牛顿法,从某一初始点出发,用一个二次的曲线或者曲面局部拟合目标函数,然后通过求解二次曲线或曲面的梯度,一步到达曲线或者曲面的最小值,然后继续用新的二次曲线或曲面局部拟合。如果目标函数是近似二次的,则机会一步到达极小值,因此比一阶方法快。缺点是在...

2020-01-22 09:34:25 441

原创 从二类逻辑回归到多类逻辑回归,再到softmax分类

二类逻辑回归逻辑回归虽然带有回归两个字,但是却是一个分类模型。之所以说是逻辑回归,是因为在二类逻辑回归中,特征的线性转换wTxw^TxwTx被输入到一个Logistic Sigmoid函数(简称Sigmoid 函数)里。f(x)=1e−wTx,    (1)f(x)=\frac{1}{e^{-w^Tx}},~~~~(1)f(x)=e−wTx1​,&nbs...

2020-01-10 12:29:09 509

原创 分类回归树(CART)的快速理解

回归树回归树是一个回归模型,模型具有树型结构。实际思想就是将特征空间划分为若干个子空间,并计算每个子空间内样本标注的均值。预测时,只需判断样本落入哪个子空间,其对应的子空间标注均值即是其预测值。如何划分特征空间?以连续性特征空间为例,要选择合适的特征维度和合适的划分点。具体方法就是遍历所有的特征维度和候选划分点,使得划分后,预测误差的平方和最小(两个子空间的总方差和最小)。重复该过程直到达...

2020-01-06 13:07:09 479

原创 决策树

什么是决策树决策树是一种用于分类或者回归的决策模型,因为其模型是树形结构,因此称为决策树。本质上决策树是if-then规则的集合。如何构建决策树(学习过程)构建决策树的算法有很多,影响比较大的有ID3,C4.5, CART 等。这里我们首先介绍其算法的思想框架。以分类任务为例:(1) 属性选择:遍历属性集选择一个属性,使得训练集得到一个最好的划分。(2) 新建分支:建立一个子节点,对应...

2020-01-03 14:54:24 151

原创 attention机制

注意力机制注意力机制使用非常广泛,其核心生成一个非负的权重向量或者矩阵,其和为0。,然后利用生成的权重向量或者矩阵逐元素乘以另外一个向量或者矩阵,自动捕获我们所关心的信息。根据这个权重向量或者矩阵的取值范围不同,可以分为soft attention和hard attention。soft attention 中,权重是在(0,1)之间。hard attention中,权重是 one hot...

2020-01-02 17:49:31 245

原创 深度残差网络

什么是深度残差网络实际就是在一般的深度神经网络中加入短连接(shortcut connection)或者跳跃连接(skip connection)。为什么需要深度残差网络梯度消失问题:随着深度的增加,梯度消失,深度神经网络的比较快靠前的网络层很难训练。加入短连接后,靠后网络的层的梯度可以直接反向传播到前面的层,加速网络训练。另外一个解释就是,加上短连接后,参数没有增加,网络学习目标相当于...

2020-01-02 12:13:33 275

原创 batch-norm

batch-norm是什么batch-norm 是google研究人员提出的一种加速深度神经网络训练的技术。如字面意思是一种批量归一化,实际就是对神经网络的某一层的batch输出进行归一化(先进行zscore归一化然后再输入到激励函数内)。为什么做batch-norm第一个问题:分布不一致问题,泛化不好在统计学习中间经常要假设训练数据的分布和测试数据的分布一致,如果不一致需要迁移学习,域自...

2020-01-02 11:35:49 1176

原创 特征值分解与奇异值分解

什么是特征值分解特征值定义:任意的一个nnn阶实数方阵A∈Rn×nA\in R^{n\times n}A∈Rn×n,如果存在非零向量xxx:Ax=λxAx=\lambda xAx=λx, 则称xxx为AAA的特征向量,λ\lambdaλ为AAA的特征值或者本征值。特征值分解:任意的一个nnn阶实数方阵A∈Rn×nA\in R^{n\times n}A∈Rn×n,A含有nnn个线性无关特征...

2020-01-01 00:30:53 1068

原创 K近邻法

K近邻是一种机器学习模型,可以用分类或者回归。下面以分类任务为例介绍。基本思想(分类)给定一个有类别标注的样本集,现在有一个测试样本 ,然后预测该测试样本应该属于哪一个类别。用K近邻法就是在训练数据集中找到距离测试样本最近的K个样本,然后看看这K个样本中哪一个类别的样本最多了,然后将该类别作为测试样本的分类结果。思想很简单,这里的难点和重点在于如何找到距离测试样本最近的K个样本。最简单的想法...

2019-12-30 14:50:59 198

原创 为什么说梯度方向是函数值上升(的速率)最快的方向

梯度

2019-12-11 15:37:35 1742

原创 信息熵

信息熵信息熵是统计学习中常见概念,用来衡量一个随机变量XXX的不确定性,不确定性和概率分布p(X)p(X)p(X)有关,因此有下式:H(X)H(X)H(X)或者H(p)=−∑xp(x)log(p(x))=Exlog(1p(x))H(p)=-\sum\limits_{x} p(x)log(p(x))=E_{x}log(\frac{1}{p(x)})H(p)=−x∑​p(x)log(p(x))=E...

2019-12-09 11:22:33 217

原创 神经网络之梯度下降

神经网络是一个神奇的黑盒子,其求解方法主要是各种梯度下降迭代算法。梯度下降:,梯度为基于全体样本的平均梯度,学习率为静态学习率。随机梯度下降:梯度为基于单个样本的梯度,学习率为静态学习率。batch梯度下降:梯度为基于多个样本的平均梯度,更准确点。速度介于梯度下降和batch梯度下降之间。学习率为静态学习率。momentum:梯度为当前梯度和上次参数更新量的加权和。主要成分为上次参数更新量...

2019-09-01 04:06:02 392

原创 拉格朗日对偶性

原始问题:min⁡xf(x)\min\limits_xf(x)xmin​f(x)s.t. g(x)≤0s.t.~g(x)\leq0s.t. g(x)≤0。原始问题转化为对偶问题求解的整体思路就是构造原问题最优值的下界(即拉格朗日对偶函数)。然后考虑如何确定原问题最优值的最大下界(最大化拉格朗日对偶函数)即可。构造拉格朗日函数:L(x,λ)=f(x)+λg(x),&nb...

2019-08-10 07:29:55 296

原创 有约束优化之拉格朗日乘子法求解

有约束优化之拉格朗日乘子法求解本篇文章将详解带有约束条件的最优化问题,约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解,所以本文称拉格朗日乘子法得到的为可行解,其实就是局部极小值。...

2019-08-09 08:13:17 1115

原创 机器学习总体认识

机器学习是什么?机器学习可以认为是通过在大量的经验或者数据上施加运算,然后来提高完成某项任务,或者提高某系统的性能。这里的关键是经验数据,计算和性能。数据包括:训练数据(经验)和测试数据(模拟未来新数据)。计算包括:训练和预测(推断)。性能包括:训练性能和测试性能,我们多关注测试性能或者叫泛化性能。在确定性能指标的情况下,我们通过研究使用数据,或则如何计算来提高性能。机器学习能干什么?简单...

2019-08-07 06:30:44 191

原创 生成对抗网络(GAN)简单认识

本文简单介绍生成对抗网络的来源及逻辑。假设我们想训练一个生成器G(z)G(z)G(z),使得生成器的输出xxx尽可能真实自然,但是是否真实自然这个损失函数很难设计。于是我们想到可以利用一个判别器D(x)D(x)D(x)来判断生成样本xxx的真假。但问题是这个判别器从何而来?既然很难设计,那就不妨训练一个这样的判别器。训练数据分为两类,正例是真实的天然样本,负例是伪造的生成的样本。天然样本当然好获...

2019-08-05 03:34:14 340

原创 集成学习

集成学习方法分为两大类:1)基于boost的方法:基本原理就是利用一系列弱学习器组成一个强学习器。这些弱学习按顺序依次训练得到。这个方法是首先给每个样本赋一个权值,这个权值被利用到损失函数中。然后训练第一个弱学习器,完成训练之后,根据这个弱学习器在训练集的上的表现,更新样本权值,具体来说就是预测错误的样本被赋予更大的权值,预测正确的值被赋予更小的权值,然后继续训练第二个弱学习器。这样训练N个...

2019-08-04 05:21:46 169

原创 LSTM和GRU区别与联系

LSTM和GRU都是特殊的RNN架构,都是为了解决梯度消失问题而生。GRU可以认为是简化版本的LSTM。GRU具体两个门结构:重置门和更新门。重置门用来控制新的信息如何与前面的记忆结合,更新门用来控制当前新的记忆与过去的记忆结合。重置门:r=σ(U1xt+W1ht−1)r=\sigma(U_1x_t+W_1h_{t-1})r=σ(U1​xt​+W1​ht−1​)更新门:z=σ(U2xt+...

2019-08-03 05:08:22 1379

原创 状态空间模型与贝叶斯滤波算法

介绍状态空间模型是概率图生成模型,它假设序列观察数据背后由隐状态支撑,或者说隐状态生成了观察。隐状态符合一阶马尔科夫链假设,也就是说,除了前一时刻隐状态外,当前时刻隐状态独立于过去其它所有时刻的隐状态。如下图xnx_nxn​为观察,znz_nzn​为隐状态。模型如果zzz是离散状态,那就是HMM模型。如果zzz是连续状态,可以成为线性动态系统LDS。模型学习与推断HMM和LDS的参数都...

2019-07-31 03:58:10 1164

原创 手写误差反向传播算法Error BackPropagation

本文介绍如何手写神经网络训练代码已知数据:输入数据X∈Rn×dX\in\mathbb{R}^{n\times d}X∈Rn×d,nnn为样本个数,ddd为样本维数,也就是神经网络输入节点数。标注数据Y∈Rn×tY\in\mathbb{R}^{n\times t}Y∈Rn×t, ttt为输出维数,也就是神经网络输出节点数。注意,为了便于书写,不考虑偏置Bias。神经网络模型:两层权重,三...

2019-07-30 04:20:39 552

原创 从EM算法到变分推断(变分贝叶斯推断)

EM算法,变分推断,变分贝叶斯关系

2019-07-26 05:46:53 4849

原创 图模型的学习与推断

图模型是概率建模的有力工具,最大优点就是可解释性强。缺点就是经常需要选择特殊的分布来保证好的数学性质,保证可解性。图模型的推断:一般指,对联合分布通过对无关分布求积分或者求和得到待推断变量的边际或边缘分布。图模型的学习:一般指,对图模型的各种分布的参数的估计。如果把参数也看成待推断变量,则图模型的学习过程和推断过程类似,可以统称为推断。因此接下来我们只谈图模型的推断。推断分为两种:1)...

2019-07-26 05:44:09 655

原创 EM算法

在用最大似然原则求解一些图模型参数时,经常会遇到图模型含有隐变量的情况,导致很难简单实用极大似然估计。这类问题一般求助于基于迭代的EM算法。一般分为两步。第一步求期望,第二步最大化。下面我们导出EM算法。已知观察数据Y={y1,...yN}Y=\{y_1,...y_N\}Y={y1​,...yN​},和隐变量为Z={z1,...,zN}Z=\{z_1,...,z_N\}Z={z1​,.....

2019-07-25 06:16:27 197

原创 主成分分析(PCA)思路

主成分分析可用于降维。也就是给定一个ddd维的列向量xi∈Rd×1\bm{x}_i\in \mathbb{R}^{d\times 1}xi​∈Rd×1,求一个基向量组成的矩阵W∈Rd×dW\in \mathbb{R}^{d\times d}W∈Rd×d。此时如果抛弃一些基向量后有W′∈Rd×d′W'\in \mathbb{R}^{d\times d'}W′∈Rd...

2019-07-21 21:00:29 529

原创 软间隔支持向量机

首先考虑硬间隔支持向量机:min⁡w12∣∣w∣∣2\min\limits_w\frac{1}{2}||w||^2wmin​21​∣∣w∣∣2s.t.  yi(wTxi+b)≥1,i=1,..,ms.t.~~y_i(w^Tx_i+b)\geq1, i=1,..,ms.t.  yi​(wTxi​+b)≥1,i=1,..,m在某些样本不满足约束条件的情...

2019-07-19 22:16:18 643

原创 支持向量机思路

通过最大间隔原则导出SVM基本型:min⁡w,b12∣∣w∣∣2\min\limits_{w,b}\frac{1}{2}||w||^2w,bmin​21​∣∣w∣∣2s.t.  yi(wTxi+b)≥1,i=1,...,ms.t. ~~y_i(w^Tx_i+b)\geq1,i=1,...,ms.t.  yi​(wTxi​+b)≥1,i=1,...,m...

2019-07-19 07:11:27 277

恐怖贴图,vs实现,基于directx

恐怖贴图,vs实现,基于directx,音效实例,3D实例

2012-11-12

扫雷游戏,带源码

扫雷游戏,带源码,C应用实例,文本编程,菜单编程

2012-11-12

Probabilistic Graphical Models

Probabilistic+Graphical+Models+Principle,概率图模型,详细介绍概率图模型原理及应用,斯坦福大学出版

2012-11-12

[操作系统].于渊.无水印影印版

[操作系统].于渊.无水印影印版,详细介绍操作系统实现原理,从菜鸟到大牛

2012-11-12

机器人策略

机器人足球仿真平台,策略开发,5VS5类型,西北工业大学

2012-09-20

交通测试系统计算机仿真

北京的交通拥堵情况严重。有专家认为,拥堵原因很大程度上是因为左转太多,如果取消左转,就可缓解交通拥堵情况,请用计算机仿真论证上述想法。

2010-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除