Bingoyear-CSDN博客

原创运行Swarm智能体—基于Qwen开源模型

Swarm框架+开源模型+Agent跳转

2024-10-17 16:12:47 715 3

chain.invoke(context)只可传入一个参数，若传入多个参数，利用chain.invoke({‘context’: context, ‘num’:num})返回dict形式，通过添加, return_only_outputs=True，可以只返回text键。chain.run(context)这种形式只用于传入一个参数，若传入多个参数，调用形式如下。chain(context)只可传入一个参数，若传入多个参数，调用形式如下。单个或者多个输出参数，调用方式都如下，其他方式出错。

2024-06-19 14:28:38 1294

原创 LLaMA-2的模型架构

输出probs:[B, L, vab_size]

2023-08-30 14:48:47 405

原创 PaLM中ROPE位置编码实现源码解析

可于下面链接中LLaMA中ROPE实现做对比。，拆解后可以得到下式。

2023-08-25 10:31:26 1149

原创 LLaMA中ROPE位置编码实现源码解析

1、Attention中q，经下式，生成新的q。m为句长length，d为embedding_dim/head。2、LLaMA中RoPE源码。

2023-08-24 16:26:51 3207

原创 torch中查看某张量是否含有nan

上述张量返回 [n, *]，若n==0，无nan；

2023-08-24 14:27:43 533

原创 ChatGLM的模型架构

ChatGLM的部署微调等，很多资料，不再赘述。

2023-06-08 11:05:57 4911 2

原创 einops中pack、unpack方法的使用记录

einops中pack、unpack使用

2023-02-17 10:19:47 1986

原创 Darknet转为Pytorch

Darknet转为Pytorch

2022-04-18 16:05:16 1076

原创 cuda错误：You are running using the stub version of cusolver

报错信息如下：You are running using the stub version of cusolver上述错误说明你使用了stub版本的libcusolve，替换成对应版本就好。有坑的地方：去到cuda安装的目录lib64下，看到明明有libcusolver.so文件，把它删掉或者放到stubs目录下。这时如果你从别处拷一份libcusolver.so过来，会发现不能复制或者出现You are running using the stub version of cusolver同样的错误

2021-12-09 11:51:13 1450

原创 cuda错误：libcudart.so.10.2: cannot open shared object file

报错信息如上，原因是cuda中缺少libcudart.so.10.2文件解决方法：1、从别处同一版本cuda的lib64文件下，复制一个，放到/usr/loca/cuda***/lib64的文件夹内2、从nvidia官网下载cuda，重新安装或者解压取到libcudart.so.10.2同样的，缺少libcusolver.so、libcusolver.so.10、libcufft.so.10、libnvrtc.so.10.2等文件，同样操作即可...

2021-12-09 11:38:12 6891

原创 mxnet中cuda错误：CUDA: invalid device ordinal

mxnet.base.MXNetError: [10:32:39] src/engine/./…/common/cuda_utils.h:395: Check failed: e == cudaSuccess || e == cudaErrorCudartUnloading: CUDA: invalid device ordinal上述错误，说明当前使用cuda的编号错误，仔细查看gpu的id

2021-12-09 10:41:15 1400

转载 WeightNorm的原理

转载自知乎，侵删

2021-06-16 10:36:51 4291 2

原创 pytorch中AdaGrad优化器源码解读

1. AdaGrad算法花书中截图，随便找了一张。2.源码def step(self, closure=None): """Performs a single optimization step. Arguments: closure (callable, optional): A closure that reevaluates the model and returns the loss. """ loss = None

2021-06-10 15:46:22 727

原创 Power Iteration算法-Hessian矩阵特征值

利用幂迭代法，计算黑塞矩阵的特征值。上图中V是随意选的与WiW_iWi同维度的向量，利用1-n代梯度gig_igi，H为黑塞阵。最后i=n时，Hv=d(gv)dWn=d(gnTv)dWnHv=\frac{d(gv)}{dW_n}=\frac{d(g_{n}^{T}v)}{dW_n}Hv=dWnd(gv)=dWnd(gnTv)v=Hv∣∣Hv∣∣v=\frac{Hv}{||H...

2021-02-23 15:57:29 1444

原创 RuntimeError: one of the variables needed for gradient computation has been modified by an inplace o

错误如下RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.IntTensor [12, 1, 10]] is at version 2; expected version 1 instead. Hint: enable anomaly detection to find the operation that fai

2021-01-22 10:19:01 367

原创 GPU使用错误：维度不匹配

错误：上述错误看着像是维度不匹配，实际是生成数据的错误1、GPU数量2，使用Dataparallel加载inputs：[batch_size, length]其中的一个输入，即bert中positional embedding，偷了个巧，反正每个样本其值都一样，所幸在DataLoader中将其维度设置为[1, length, embed_dim]，然后就悲剧了。模型进行数据并行时，例如这里是两块GPU，实际是将数据分成两份，按照batch_size的维度进行分配。如果positional emb

2020-11-19 15:25:18 1716 1

原创由极大似然估计推导损失函数——Logistic回归

1、损失函数推导假定yyy服从于Bernoulli分布，也即f(y)=py(1−p)1−yf(y)=p^y(1-p)^{1-y} f(y)=py(1−p)1−y其中y=0,1参照李航《统计学习方法》第二版p93解法，易得对数似然函数为L(w)=∑i=1N[yi(wxi)−log(1+exp(wxi))]L(w)=\sum_{i=1}^{N}[y_i(wx_i)-log(1+exp(wx_i))]L(w)=i=1∑N[yi(wxi)−log(1+exp(wxi))]所以，lo

2020-08-03 21:35:56 1316

原创 NLP中激活函数的理解

1、激活函数将线性变换转变成非线性。Y=σ(XW+b)Y=\sigma(XW+b)Y=σ(XW+b)XW+bXW+bXW+b是在X基础上做的线性变换，总体来说做的平移、旋转和缩放，加入激活函数后，变换是非线性的。2、以ReLU函数为例ReLU(x)={0,x<0x,x≥0ReLU(x)=\left\{ \begin{aligned} 0&, x < 0 \\ ...

2020-07-31 21:12:45 308

原创 NLP中MLP线性层的理解

1、给定某变量X([batch_size, seq_len, input_dim])，经过线性层Y=XW+b{Y=XW+b }Y=XW+b W维度[input_dim, out_dim]，b维度[out_dim]，Y维度为[batch_size, seq_len, out_dim]。假定input_dim=...

2020-07-31 21:12:06 2570

原创交叉熵损失公式与手动计算

1、交叉熵损失函数交叉熵的公式有多种形式，一般写作loss=−1n∑j=1nyjlnaj（∗∗）loss=-\frac{1}{n}\sum_{j=1}^{n}y_jlna_j （**）loss=−n1j=1∑nyjlnaj（∗∗）lossj=−yjlnaj（1）loss_j=-y_jlna_j （1）lossj=−yjlnaj（1）lossjloss_jlossj表示第j个样本的损失。aja_jaj表示softmax函数输出。yjy_jyj表示第j个样本的真实标签，为o

2020-07-30 10:39:07 4198

原创 pycharm远程连接服务器--多个项目共用一个interpreter

（1）pycharm远程连接的例子比较多，下面参考连接实测可用资料一资料二（2）实际工作中，公共文件夹中可能包含多个项目文件，又不想都传输到服务器中，可以考虑资料一中“配置忽略路径”。下面采用另外一种方法项目一：已经按照（1）中步骤配置完成，利用CTRL+S可自动传输文件到服务器。项目二：新建的，想利用项目一中interpreter1）Tools–>Deployment–>Configuration，点击Mappings，将Local path改为本地项目二路径，Deployment

2020-05-18 11:10:16 2954 1

原创 TypeError: zip argument #1 must support iteration

利用pytorch中的dataparallel时，遇到一个bug[Previous line repeated 1 more time]TypeError: zip argument #1 must support iteration在单个gpu上可以正常训练加验证，双块gpu时，在验证时出现上述错误，后来发现是因为eval时，模型返回的是个标量（list）。解决方法：将模型返回数据改为...

2020-04-24 14:58:49 6893 6

原创本地宿主机连接nginx容器

1、启动dockersystemctl start docker2、安装nginx容器docker run -d -p 80:80 nginx3、利用ip addr查看虚拟机IP和容器IP4、在本地宿主机浏览器输入以下地址，进入nginx虚拟机IP:80 或者直接用虚拟机IP...

2020-04-19 20:21:26 578

原创 docker容器、虚拟机、宿主机之间的网络配置

目前安装，本地电脑（windows10）-vmware虚拟机（centos 7）-docker容器网络地址想在本地电脑上访问到docker容器内服务，需要三者之间互相ping通，涉及3个IP地址1、本地电脑IP，也即宿主机IP。通过在本地cmd采用ipconfig命令查看2、虚拟机IP，也即宿主服务器IP。通过在虚拟机上ip addr命令查看3、docker容器IP，通过在虚拟机上ip ...

2020-04-19 18:41:31 9960

原创 pytorch中SGD源码解读

def step(self, closure=None): """Performs a single optimization step. Arguments: closure (callable, optional): A closure that reevaluates the model and...

2020-03-25 18:15:59 5451 7

原创 dropout实现过程

1、dropout可以用来防止过拟合pytorch中实现如下：m = nn.Dropout(p=0.2)input = torch.randn(2, 5)print()output = m(input)print(input)print(output)输出如下实际上，dropout不只mask掉某个位置的数，而且还将保留的数进行缩放，缩放比例为p1−p{\frac{p}{1...

2020-03-25 18:15:40 1036

原创 pytorch中Adam优化器源码解读

1. 调用方法torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)参数：weight_decay : L2正则化的系数amsgrad：在更新时，是否保留梯度的二阶历史信息2.源码 def step(self, closure=None):...

2020-03-25 18:14:25 12246 9

原创 pytorch中修改现有层及自定义层

1、在现有层上添加参数，Linear层如下，添加weight_c参数import torchfrom torch.nn.parameter import Parameterfrom torch.nn.modules.module import Modulefrom torch.nn import functional as Ffrom torch.nn import initcla...

2020-03-25 10:10:22 1980

原创 python使用github上的包

当pip install不能安装包时1、利用git命令或直接下载到本地git clone https://github.com/xx.git2、进入下载文件，运行python setup.py install3、此时会在python的Lib\site-packages文件内生成.egg文件，这时包可以用。要看源代码，可以直接解压egg文件。...

2020-03-24 14:48:05 4759

原创 docker容器内uwsgi及nginx服务部署

端口对应uwsgi部署流程1、利用pip install uwsgi下载python对应的库2、新建flask的python文件，例如test_1.py，如下from flask import Flaskapp = Flask(__name__)@app.route("/hello")def hello(): print("hello world ") return...

2020-03-16 20:15:08 770

原创 NLP中的基本网络

nlp中的文本，基本都可以表示为[ batch, seq, embed_dim] 的形式CNN一般使用一维卷积，因为一维卷积变换的是最后一个维度，所以变换文本形状为 [batch, embed_dim, seq]。# 一维卷积是在最后一个维度进行m = nn.Conv1d(in_channels=16, out_channels=33, kernel_size=3, stride=2)...

2020-03-11 14:53:24 1519

原创论文笔记： Medical Exam Question Answering with Large-scale Reading Comprehension

S为[question, 候选answer]拼接的集合，D={D_1, D_2, … , D_N}为文档集合。L_Q:question与候选answer中的最大长度L_D: 为文档D中的最大长度Dual-path attention layerContex layer层的输出为S：[L_Q, d]、D_i：[L_D, d]Dn(j)D_n(j)Dn(j)表示与候选S相关的第n篇文档中的...

2020-03-10 10:25:58 376

原创 Attention中softmax的梯度消失及scaled原因

在bert模型中的attention构造中Q：[batch, 12, seq, dk]K：[batch, 12, seq, dk]softmax中的梯度消失 x=(a,a,2a,4a)x=(a, a, 2a, 4a)x=(a,a,2a,4a), a>0a>0a>0，...

2020-03-09 20:15:36 5261 1

原创 pytorch中Schedule与warmup_steps的用法

lr_scheduler相关lr_scheduler = WarmupLinearSchedule(optimizer, warmup_steps=args.warmup_steps, t_total=num_train_optimization_steps)其中args.warmup_steps可以认为是耐心系数num_train_optimization_steps为模型参数的总更...

2020-02-27 16:38:27 16015

原创 VS Code配置C++环境

1、安装包与配置路径见添加链接描述2、主要说下不一样的地方在新建test.cpp文件后，执行F5测试选择第一项选择“默认配置”将画红线部分修改如下，新增"preLaunchTask": “gcc”,再次在test.cpp上执行F5测试，弹出下列窗口，选择“配置任务”接着出现，选择“使用模板创建 task.json 文件”，没有此选项就选“g++”那个出现修改lab...

2020-02-15 23:37:48 163

原创 linux下python3.7和pip3安装

1、python安装安装教程见https://blog.csdn.net/ITLearnHall/article/details/822607852、pip3安装。python安装完成后，建立软连接后，发现pip3并不可用，参见了网上各种教程，记录下来。1）下载 wget --no-check-certificate https://pypi.python.org/packages/...

2019-12-16 14:01:16 1621

原创 git同时操作github与gitlab

设置完成git的username和useremail后，添加ssh成功。网上好多教程，不赘述了。1、github的配置在github界面，右上角Settings 、SSH and GPG keys、New SSH key，将本地.ssh文件中id_rsa.pub中的内容copy到github中空框内，title随便写，确定就好了gitlab的配置和github基本一样，添加完SSH就完事...

2019-12-13 16:55:01 146

原创指标解读：precision和recall

二分类时，两指标比较常用正样本（l=1）的指标如下precision=(l=1,p=1)/(p=1)recall=(l=1,p=1)/(l=1)其中precision表示label=1且pre=1的样本/pre=1的样本，precision越高，代表训练越关注负样本。recall表示label=1且pre=1的样本/label=1的样本，recall越高，代表训练时越关注正样本。pre...

2019-12-03 17:22:46 1808

原创样本不均衡问题与损失函数

focal loss用来解决样本不均衡的分类问题。假设正样本（label=1）少，负样本多，定义focal loss如下Loss = -[alpha*(1-y_hat)^2yln(y_hat)+ (1-alpha)y_hat^2(1-y)*ln(1-y_hat)]其中y_hat:(batch, seq, tags)，预测出的y: (batch, seq, tags)alpha：(1, ...

2019-12-03 16:24:11 2293 1