自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (8)
  • 收藏
  • 关注

原创 chain的不同调用方法

chain.invoke(context)只可传入一个参数,若传入多个参数,利用chain.invoke({‘context’: context, ‘num’:num})返回dict形式,通过添加, return_only_outputs=True,可以只返回text键。chain.run(context)这种形式只用于传入一个参数,若传入多个参数,调用形式如下。chain(context)只可传入一个参数,若传入多个参数,调用形式如下。单个或者多个输出参数,调用方式都如下,其他方式出错。

2024-06-19 14:28:38 266

原创 LLaMA-2的模型架构

输出probs:[B, L, vab_size]

2023-08-30 14:48:47 322

原创 PaLM中ROPE位置编码实现源码解析

可于下面链接中LLaMA中ROPE实现做对比。,拆解后可以得到下式。

2023-08-25 10:31:26 865

原创 LLaMA中ROPE位置编码实现源码解析

1、Attention中q,经下式,生成新的q。m为句长length,d为embedding_dim/head。2、LLaMA中RoPE源码。

2023-08-24 16:26:51 2018

原创 torch中查看某张量是否含有nan

上述张量返回 [n, *],若n==0,无nan;

2023-08-24 14:27:43 310

原创 ChatGLM的模型架构

ChatGLM的部署微调等,很多资料,不再赘述。

2023-06-08 11:05:57 4385 2

原创 einops中pack、unpack方法的使用记录

einops中pack、unpack使用

2023-02-17 10:19:47 1165

原创 Darknet转为Pytorch

Darknet转为Pytorch

2022-04-18 16:05:16 953

原创 cuda错误:You are running using the stub version of cusolver

报错信息如下:You are running using the stub version of cusolver上述错误说明你使用了stub版本的libcusolve,替换成对应版本就好。有坑的地方:去到cuda安装的目录lib64下,看到明明有libcusolver.so文件,把它删掉或者放到stubs目录下。这时如果你从别处拷一份libcusolver.so过来,会发现不能复制或者出现You are running using the stub version of cusolver同样的错误

2021-12-09 11:51:13 1086

原创 cuda错误:libcudart.so.10.2: cannot open shared object file

报错信息如上,原因是cuda中缺少libcudart.so.10.2文件解决方法:1、从别处同一版本cuda的lib64文件下,复制一个,放到/usr/loca/cuda***/lib64的文件夹内2、从nvidia官网下载cuda,重新安装或者解压取到libcudart.so.10.2同样的,缺少libcusolver.so、libcusolver.so.10、libcufft.so.10、libnvrtc.so.10.2等文件,同样操作即可...

2021-12-09 11:38:12 6392

原创 mxnet中cuda错误:CUDA: invalid device ordinal

mxnet.base.MXNetError: [10:32:39] src/engine/./…/common/cuda_utils.h:395: Check failed: e == cudaSuccess || e == cudaErrorCudartUnloading: CUDA: invalid device ordinal上述错误,说明当前使用cuda的编号错误,仔细查看gpu的id

2021-12-09 10:41:15 1231

转载 WeightNorm的原理

转载自知乎,侵删

2021-06-16 10:36:51 4008 1

原创 pytorch中AdaGrad优化器源码解读

1. AdaGrad算法花书中截图,随便找了一张。2.源码def step(self, closure=None): """Performs a single optimization step. Arguments: closure (callable, optional): A closure that reevaluates the model and returns the loss. """ loss = None

2021-06-10 15:46:22 659

原创 Power Iteration算法-Hessian矩阵特征值

利用幂迭代法,计算黑塞矩阵的特征值。上图中V是随意选的与WiW_iWi​同维度的向量,利用1-n代梯度gig_igi​,H为黑塞阵。最后i=n时,Hv=d(gv)dWn=d(gnTv)dWnHv=\frac{d(gv)}{dW_n}=\frac{d(g_{n}^{T}v)}{dW_n}Hv=dWn​d(gv)​=dWn​d(gnT​v)​v=Hv∣∣Hv∣∣v=\frac{Hv}{||H...

2021-02-23 15:57:29 1221

原创 RuntimeError: one of the variables needed for gradient computation has been modified by an inplace o

错误如下RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.IntTensor [12, 1, 10]] is at version 2; expected version 1 instead. Hint: enable anomaly detection to find the operation that fai

2021-01-22 10:19:01 312

原创 GPU使用错误:维度不匹配

错误:上述错误看着像是维度不匹配,实际是生成数据的错误1、GPU数量2,使用Dataparallel加载inputs:[batch_size, length]其中的一个输入,即bert中positional embedding,偷了个巧,反正每个样本其值都一样,所幸在DataLoader中将其维度设置为[1, length, embed_dim],然后就悲剧了。模型进行数据并行时,例如这里是两块GPU,实际是将数据分成两份,按照batch_size的维度进行分配。如果positional emb

2020-11-19 15:25:18 1353 1

原创 由极大似然估计推导损失函数——Logistic回归

1、损失函数推导假定yyy服从于Bernoulli分布,也即f(y)=py(1−p)1−yf(y)=p^y(1-p)^{1-y} f(y)=py(1−p)1−y其中y=0,1参照李航《统计学习方法》第二版p93解法,易得对数似然函数为L(w)=∑i=1N[yi(wxi)−log(1+exp(wxi))]L(w)=\sum_{i=1}^{N}[y_i(wx_i)-log(1+exp(wx_i))]L(w)=i=1∑N​[yi​(wxi​)−log(1+exp(wxi​))]所以,lo

2020-08-03 21:35:56 1187

原创 NLP中激活函数的理解

1、激活函数将线性变换转变成非线性。Y=σ(XW+b)Y=\sigma(XW+b)Y=σ(XW+b)XW+bXW+bXW+b是在X基础上做的线性变换,总体来说做的平移、旋转和缩放,加入激活函数后,变换是非线性的。2、以ReLU函数为例ReLU(x)={0,x<0x,x≥0ReLU(x)=\left\{ \begin{aligned} 0&, x < 0 \\ ...

2020-07-31 21:12:45 257

原创 NLP中MLP线性层的理解

1、给定某变量X([batch_size, seq_len, input_dim]),经过线性层Y=XW+b{Y=XW+b }Y=XW+b   W维度[input_dim, out_dim],b维度[out_dim],Y维度为[batch_size, seq_len, out_dim]。    假定input_dim=...

2020-07-31 21:12:06 2291

原创 交叉熵损失公式与手动计算

1、交叉熵损失函数交叉熵的公式有多种形式,一般写作loss=−1n∑j=1nyjlnaj(∗∗)loss=-\frac{1}{n}\sum_{j=1}^{n}y_jlna_j (**)loss=−n1​j=1∑n​yj​lnaj​(∗∗)lossj=−yjlnaj(1)loss_j=-y_jlna_j (1)lossj​=−yj​lnaj​(1)lossjloss_jlossj​表示第j个样本的损失。aja_jaj​表示softmax函数输出。yjy_jyj​表示第j个样本的真实标签,为o

2020-07-30 10:39:07 3854

原创 pycharm远程连接服务器--多个项目共用一个interpreter

(1)pycharm远程连接的例子比较多,下面参考连接实测可用资料一资料二(2)实际工作中,公共文件夹中可能包含多个项目文件,又不想都传输到服务器中,可以考虑资料一中“配置忽略路径”。下面采用另外一种方法项目一:已经按照(1)中步骤配置完成,利用CTRL+S可自动传输文件到服务器。项目二:新建的,想利用项目一中interpreter1)Tools–>Deployment–>Configuration,点击Mappings,将Local path改为本地项目二路径,Deployment

2020-05-18 11:10:16 2429 1

原创 TypeError: zip argument #1 must support iteration

利用pytorch中的dataparallel时,遇到一个bug[Previous line repeated 1 more time]TypeError: zip argument #1 must support iteration在单个gpu上可以正常训练加验证,双块gpu时,在验证时出现上述错误,后来发现是因为eval时,模型返回的是个标量(list)。解决方法:将模型返回数据改为...

2020-04-24 14:58:49 6713 6

原创 本地宿主机连接nginx容器

1、启动dockersystemctl start docker2、安装nginx容器docker run -d -p 80:80 nginx3、利用ip addr查看虚拟机IP和容器IP4、在本地宿主机浏览器输入以下地址,进入nginx虚拟机IP:80 或者直接用 虚拟机IP...

2020-04-19 20:21:26 469

原创 docker容器、虚拟机、宿主机之间的网络配置

目前安装,本地电脑(windows10)-vmware虚拟机(centos 7)-docker容器网络地址想在本地电脑上访问到docker容器内服务,需要三者之间互相ping通,涉及3个IP地址1、本地电脑IP,也即宿主机IP。通过在本地cmd采用ipconfig命令查看2、虚拟机IP,也即宿主服务器IP。通过在虚拟机上ip addr命令查看3、docker容器IP,通过在虚拟机上ip ...

2020-04-19 18:41:31 8442

原创 pytorch中SGD源码解读

def step(self, closure=None): """Performs a single optimization step. Arguments: closure (callable, optional): A closure that reevaluates the model and...

2020-03-25 18:15:59 5131 7

原创 dropout实现过程

1、dropout可以用来防止过拟合pytorch中实现如下:m = nn.Dropout(p=0.2)input = torch.randn(2, 5)print()output = m(input)print(input)print(output)输出如下实际上,dropout不只mask掉某个位置的数,而且还将保留的数进行缩放,缩放比例为p1−p{\frac{p}{1...

2020-03-25 18:15:40 959

原创 pytorch中Adam优化器源码解读

1. 调用方法torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)参数:weight_decay : L2正则化的系数amsgrad:在更新时,是否保留梯度的二阶历史信息2.源码 def step(self, closure=None):...

2020-03-25 18:14:25 11433 9

原创 pytorch中修改现有层及自定义层

1、在现有层上添加参数,Linear层如下,添加weight_c参数import torchfrom torch.nn.parameter import Parameterfrom torch.nn.modules.module import Modulefrom torch.nn import functional as Ffrom torch.nn import initcla...

2020-03-25 10:10:22 1855

原创 python使用github上的包

当pip install不能安装包时1、利用git命令或直接下载到本地git clone https://github.com/xx.git2、进入下载文件,运行python setup.py install3、此时会在python的Lib\site-packages文件内生成.egg文件,这时包可以用。要看源代码,可以直接解压egg文件。...

2020-03-24 14:48:05 4282

原创 docker容器内uwsgi及nginx服务部署

端口对应uwsgi部署流程1、利用pip install uwsgi下载python对应的库2、新建flask的python文件,例如test_1.py,如下from flask import Flaskapp = Flask(__name__)@app.route("/hello")def hello(): print("hello world ") return...

2020-03-16 20:15:08 687

原创 NLP中的基本网络

nlp中的文本,基本都可以表示为[ batch, seq, embed_dim] 的形式CNN一般使用一维卷积,因为一维卷积变换的是最后一个维度,所以变换文本形状为 [batch, embed_dim, seq]。# 一维卷积是在最后一个维度进行m = nn.Conv1d(in_channels=16, out_channels=33, kernel_size=3, stride=2)...

2020-03-11 14:53:24 1435

原创 论文笔记: Medical Exam Question Answering with Large-scale Reading Comprehension

S为[question, 候选answer]拼接的集合,D={D_1, D_2, … , D_N}为文档集合。L_Q:question与候选answer中的最大长度L_D: 为文档D中的最大长度Dual-path attention layerContex layer层的输出为S:[L_Q, d]、D_i:[L_D, d]Dn(j)D_n(j)Dn​(j)表示与候选S相关的第n篇文档中的...

2020-03-10 10:25:58 295

原创 Attention中softmax的梯度消失及scaled原因

    在bert模型中的attention构造中Q:[batch, 12, seq, dk]K:[batch, 12, seq, dk]softmax中的梯度消失     x=(a,a,2a,4a)x=(a, a, 2a, 4a)x=(a,a,2a,4a), a>0a>0a>0,...

2020-03-09 20:15:36 4316 1

原创 pytorch中Schedule与warmup_steps的用法

lr_scheduler相关lr_scheduler = WarmupLinearSchedule(optimizer, warmup_steps=args.warmup_steps, t_total=num_train_optimization_steps)其中args.warmup_steps可以认为是耐心系数num_train_optimization_steps为模型参数的总更...

2020-02-27 16:38:27 15505

原创 VS Code配置C++环境

1、安装包与配置路径见添加链接描述2、主要说下不一样的地方在新建test.cpp文件后,执行F5测试选择第一项选择“默认配置”将画红线部分修改如下,新增"preLaunchTask": “gcc”,再次在test.cpp上执行F5测试,弹出下列窗口,选择“配置任务”接着出现,选择“使用模板创建 task.json 文件”,没有此选项就选“g++”那个出现修改lab...

2020-02-15 23:37:48 120

原创 linux下python3.7和pip3安装

1、python安装安装教程见https://blog.csdn.net/ITLearnHall/article/details/822607852、pip3安装。python安装完成后,建立软连接后,发现pip3并不可用,参见了网上各种教程,记录下来。1)下载 wget --no-check-certificate https://pypi.python.org/packages/...

2019-12-16 14:01:16 1549

原创 git同时操作github与gitlab

设置完成git的username和useremail后,添加ssh成功。网上好多教程,不赘述了。1、github的配置在github界面,右上角Settings 、SSH and GPG keys、New SSH key,将本地.ssh文件中id_rsa.pub中的内容copy到github中空框内,title随便写,确定就好了gitlab的配置和github基本一样,添加完SSH就完事...

2019-12-13 16:55:01 113

原创 指标解读:precision和recall

二分类时,两指标比较常用正样本(l=1)的指标如下precision=(l=1,p=1)/(p=1)recall=(l=1,p=1)/(l=1)其中precision表示label=1且pre=1的样本/pre=1的样本,precision越高,代表训练越关注负样本。recall表示label=1且pre=1的样本/label=1的样本,recall越高,代表训练时越关注正样本。pre...

2019-12-03 17:22:46 1660

原创 样本不均衡问题与损失函数

focal loss用来解决样本不均衡的分类问题。假设正样本(label=1)少,负样本多,定义focal loss如下Loss = -[alpha*(1-y_hat)^2yln(y_hat)+ (1-alpha)y_hat^2(1-y)*ln(1-y_hat)]其中y_hat:(batch, seq, tags),预测出的y: (batch, seq, tags)alpha:(1, ...

2019-12-03 16:24:11 2150 1

原创 pytorch中梯度截断

LSTM可能出现梯度爆炸,训练时,加上梯度截断param.grad.data.clamp_(-grad_clip, grad_clip)torch.clamp(min,max)

2019-12-03 16:03:59 4931

cx_Oracle-7.3.0.tar.gz

linux下的cx_oracle最新版本包,博客中举例一般都是cx_Oracle-5.1.2.tar版本的

2020-06-29

windows下cx_oracle安装包

python读取oracle数据库的安装包,为whl文件格式,适合python3.6与3.7版本。 cx_Oracle-7.3.0-cp36-cp36m-win_amd64.whl cx_Oracle-7.3.0-cp37-cp37m-win_amd64.whl

2020-06-29

instantclient_11_2.zip

原文档是10版本的,连接oracle数据库失败 oracle中的instantclient_11_2压缩文件,实测可用。

2020-04-27

pyltp的wheel文件

pyltp的wheel文件,支持python3.5和3.6。下载后在命令行直接pip install即可 pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2019-03-19

glove.6B.100d词向量数据

glove.6B.100d词向量数据集,来源于wiki百科和Gigaword数据集。

2019-03-05

quora_duplicate_questions

Quora发布的Question Pairs语义等价数据集,可以点击这个链接下载点击打开链接,其中包含了40多万对标注好的问题对,如果两个问题语义等价,则label为1,否则为0。 可用于判断这两个句子是否具备某种类型的关系,例如相似等

2019-03-05

WikiQACorpus数据集

WikiQACorpus数据集,NLP项目测试集,可用于训练与测试。

2019-03-05

glove.6B.50d词向量数据

glove.6B.50d数据集,来源于wiki百科和Gigaword数据集。

2019-03-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除