小夏refresh-CSDN博客

LoRA假设微调期间的权重更新可以很好地近似于低秩矩阵。LoRA不会更新全权重矩阵W\mathbf{W}W, 而是将更新分解为两个较小的矩阵A\mathbf{A}A和B\mathbf{B}B具体的训练过程是: 将原来的矩阵参数固定，然后利用新的数据继续训练大模型，训练过程只更新A\mathbf{A}A和B\mathbf{B}B矩阵。在推理时，将原来的矩阵W\mathbf{W}W和(A×B)(\mathbf{A}\times\mathbf{B})(A×B)相加。权重分解低秩适用(DORA)将预训练的权重分

2024-06-30 15:27:53 581

原创宿主机无法通过ip连接wsl2解决方案

解决宿主机无法通过ip链接wsl2 ubuntu的问题

2024-06-26 17:50:19 3167

原创 VMamba: Visual State Space Model论文笔记

VMamba论文阅读笔记，不包含实验部分

2024-06-26 16:19:23 1752 1

原创 Mamba: Linear-Time Sequence Modeling with Selective State Spaces论文笔记

Mamba论文阅读笔记，包含知识补充，但不包含实验及后面部分

2024-06-19 00:06:11 729 1

原创论文笔记: Stronger, FeweHarnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation论文笔记

2024-06-17 11:13:33 690 1

原创使用docker搭建overleaf环境

使用docker搭建latex论文写作环境——overleaf。

2024-06-17 11:00:23 822

原创 Ubuntu系统docker gpu环境搭建

在Ubuntu上安装docker gpu环境，可用于深度学习gpu加速训练

2024-06-17 10:58:07 1342

原创如何通俗理解逻辑回归(Logistic Regression)

首先, 什么是逻辑回归呢? 我们先来看一下逻辑回归的公式:t=wTX+by=sigmoid(t)sigmoid(t)=11+e−tt = w^TX+b\\y = sigmoid(t)\\sigmoid(t) = \frac1{1+e^{-t}}t=wTX+by=sigmoid(t)sigmoid(t)=1+e−t1对于上面的公式, 感觉很眼熟有木有!!! 没错, 就是线性回归的公式, 线性回归请参考https://xiaoxiablogs.top/index.php/机器学习/linear-r

2024-06-17 10:42:58 738 1

原创 PaddleOCR使用详解

文章目录PaddleOCR简介环境配置PaddleOCR2.0的配置环境Docker数据集文本检测使用自己的数据集文本识别使用自己的数据集字典自定义字典添加空格类别文本角度分类文本检测训练模型准备启动训练断点训练指标评估测试检测效果文本识别启动训练评估预测文本角度分类训练启动训练数据增强训练评估预测配置文件说明GlobalOptimizer ([ppocr/optimizer](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.0/ppocr/

2021-04-07 14:15:39 22364 4

原创机器学习知识总结——模型评估标准之混淆矩阵

模型评估标准混淆矩阵预测值=1预测值=0真实值=1TPFN真实值=0FPTNTP=True Postive=真阳性;FP=False Positive=假阳性TN = True Negative=假阴性;FN=False Negative=假阴性什么是查准率/精确率Precision=TPTP+FPPrecision=\frac{TP}{TP+FP}Precision=TP+FPTP什么是查全率/召回率Recall=TPTP+FNRecall

2021-01-27 08:41:14 597 1

原创机器学习知识总结——过拟合和欠拟合

过拟合（overfitting）什么是过拟合？所谓过拟合就是指在验证集和训练集上表现很好，但是在测试集上表现很差，也就是说泛化能力差。一般表现为: 高方差，低偏差过拟合的原因训练样本选取有误、样本标签错误等样本噪声干扰过大模型过于复杂对于神经网络来说:学习迭代次数太多如何防止/解决过拟合问题？扩大数据集进行正则化(L1正则或者L2正则等)采用合适的模型(控制模型的复杂度)Early stopping(通过迭代次数截断的方法来防止过拟合)Dropout(在神经网络中可以

2021-01-26 09:09:27 2020 1

原创逻辑回归(Logistic Regression)详解

文章目录什么是逻辑回归？逻辑回归的原理最常用的训练模型方法——梯度下降法逻辑回归的损失函数总结什么是逻辑回归？首先，什么是逻辑回归呢？当你看到这个名字的时候，你可能会被他误导，认为他是做回归的，实际上，他是一个分类模型。只不过他是在线性回归的基础上进行了扩展，使其可以进行分类了而已。同样的，逻辑回归的与线性回归一样，也是以线性函数为基础的；而与线性回归不同的是，逻辑回归在线性函数的基础上添加了一个非线性函数，如sigmoid函数，使其可以进行分类。逻辑回归的原理关于逻辑回归的原理呢，大家可以参照

2020-11-22 23:57:56 1135 1

原创通俗理解线性回归(Linear Regression)

线性回归, 最简单的机器学习算法, 当你看完这篇文章, 你就会发现, 线性回归是多么的简单.首先, 什么是线性回归. 简单的说, 就是在坐标系中有很多点, 线性回归的目的就是找到一条线使得这些点都在这条直线上或者直线的周围, 这就是线性回归(Linear Regression).是不是有画面感了? 那么我们上图片:那么接下来, 就让我们来看看具体的线性回归吧首先, 我们以二维数据为例:我们有一组数据xxx和yyy, 其中xxx是我们的特征, yyy就是我们的真实值(也就是每一个x对应的值), 我

2020-09-11 22:53:32 5165 1

原创随机梯度下降和小批量梯度下降详解

文章目录普通梯度下降随机梯度下降(SGD, Stochastic Gradient Descent)随机梯度下降的特点小批量梯度下降(Mini_Batch Gradient Densent)小批量梯度下降的特点所谓随机梯度下降, 顾名思义, 就是随机选取数据来做随机梯度下降.普通梯度下降普通的梯度下降的计算公式为:ω=ω−λ∂Jω\omega = \omega - \lambda\frac{\partial J}{\omega}ω=ω−λω∂J其中, JJJ为损失函数, 而ω\omegaω就

2020-09-02 15:36:53 1272 1

原创各种梯度下降法及其特点

文章目录全量梯度下降/批梯度下降(BGD, Batch Gradient Descent)特点随机梯度下降(SGD, Stochastic Gradient Descent)特点小批量梯度下降(Mini-Batch Gradient Descent)特点Momentum梯度下降法(动量梯度下降)特点Adagrad梯度下降法特点Adadelta特点Adam特点全量梯度下降/批梯度下降(BGD, Batch Gradient Descent)就是正常的梯度下降ω=ω−λ∂J∂ω\omega = \ome

2020-09-02 15:13:56 2173 1

原创各种激活函数, 图像, 导数及其特点

文章目录sigmoid特点缺点sigmoid导数tanh特点导数Relu导数优点缺点Leaky Relu(PRelu)导数特点ELU导数特点SELU导数特点SoftMax导数特点本人博客: https://xiaoxiablogs.topsigmoidf(z)=11+e−zf(z)=\frac1{1+e^{-z}}f(z)=1+e−z1其图像如下:特点能够将输入的连续实值变换为0到1之间的输出缺点在深度神经网络中梯度反向传播是容易造成梯度爆炸和梯度消失sigmoid导数f

2020-08-24 09:09:43 3865 1

原创矩阵分解推荐算法------LFM

因为很多时候,读者对于书籍的分类与编辑对书籍的分类不同,比如《具体数学》这本书，有的人认为是数学, 有的人认为属于计算机.内容是属于数学的,而大多数读者属于计算机. 编辑的分类是从内容上出发的, 而不是从书的读者出发.如果我们从数据出发的,自动地找到那些类,然后进行个性化推荐的技术就是隐含语义分析技术(latent variable analysis). 隐含语义分析技术采用的是基于用户行为统计的自动聚类.而LFM就是隐含语义分析技术的一个著名的模型算法.LFM通过如下公式计算用户u对物品i的兴趣:

2020-08-17 15:58:31 405 1

空空如也

空空如也