dream_home8407-CSDN博客

原创大模型如何构建自己的数据集，以及停用词的使用实战

角色身份+任务具体目标+任务背景+输出示例+原文内容。

2024-08-27 16:26:14 1041 1

原创 pip离线安装accelerate

【代码】pip离线安装accelerate。

2024-08-15 10:16:24 249

原创 LLama-Factory大模型训练框架，基于自己数据集微调qwen7B模型实战

LLama-Factory，大模型训练框架，支持多种模型，多种训练方式，link。

2024-07-04 11:17:36 1860 1

原创 YOLOV8训练自己的数据集图文实战,包含voc数据集处理代码

yolov8官方链接:本文章是以labelimg标注好的voc数据集为基础,通过转换格式训练模型,

2024-05-31 16:24:35 430

原创 mmdetection使用自己的voc数据集训练模型实战

一.自己数据集整理将labelimg格式数据集进行整理1.1. 更换图片后缀为jpg2.删除xml和jpg名称不对应的图片1.3 查看class name1.4 创建以下目录结构其中JPEGImgs里面是所有图片Annotations里面是所有xml文件dataset.py文件代码为准备好一切后,python dataset.py自动划分数据集由此,数据集已经准备完成。

2024-02-06 15:27:00 1374

原创 mmdetection模型转onnx和tensorrt实战

mmdetection 中cascade-rcnn转tensorrt模型,并进行api推理

2024-02-05 15:50:53 1008

原创 Ubuntu安装python步骤

【代码】Ubuntu安装python步骤。

2023-11-24 11:29:39 524

原创 GPT-1,GPT-2,GPT-3 InstructGPT论文学习笔记

GPT1-3,InstructGPT,论文学习

2023-07-17 18:07:02 799 1

可以自由设置单词mask,句子smask,文章gmask,可以根据任务的不同设置mask，文本理解设置单词级别mask，文本生成色湖之句子级别的gmask，glm130B中设置的师70%句子级别gmask，30%词级别mask，3，RoPE旋转式编码，绝对编码实现相对编码，主要就是对每个位置token中的q, k向量乘以矩阵，然后用更新的q,k向量做attention中的内积就会引入相对位置信息了。整个流程，相当于forward 参数的计算都是fp16,，更新梯度使用fp32，有更长的表示范围，

2023-07-11 19:11:37 2109

原创 LLaMA

和transformer不同的是，为了提高训练的稳定性，作者对transformer子层的输入进行归一化，而不是输出部分，残差链结构在进行归一化，使用RMSNorm归一化函数，swiGLU激活函数，代替RELU。基于transforme架构，7B模型堆叠32个decoder模块，输入维度是4096，每个mutil head attention中头的个数32个，预训练模型是使用1T的token，研究表明，最好的模型性能不是由最大的模型体积实现，而是在更多的数据上训练较小的模型实现。380个令牌/秒/GPU。

2023-07-03 17:36:15 738

原创 Transformer面试题总结

BN是对同一个batch内的所有数据的同一个特征数据进行操作；1.2 解码器：解码器同样由N=6相同的层组成，除了和编码器有两个相同的子层以外，解码器第三个子层是带有掩码的注意力机制，Mask mutil-Head Attention ，做解码是一个自回归，需要确保当前时刻t的位置不会关注t以后的数据。(做内积的目的是计算q和k两个向量的相似度，两个向量越接近相似度越高，一个query中有n个q v 对，最后输出是n个结果，最后softmax会得到n个和为1的权重，乘以v得到最后的输出)

2023-06-27 15:56:54 542

原创注意力机制，解码器和编码器的改进

Attention的结构Seq2seq是一个非常强大的框架，应用面很广，这里我们将介绍进一步强化seq2seq的注意力机制，基于attention机制，seq2seq可以像我们人类一样，将注意力集中在必要的信息上，

2023-06-20 18:22:00 616

原创 RNN生成文本,Decoder，Encoder,图像转文本

RNN生成文本。

2023-06-20 18:17:53 446

原创 LSTM输出门，遗忘门，输入门详细介绍以及代码实现

在学习正确解标签时，重要的是RNN层的存在，RNN层通过向过去传递有意义的梯度，能够学习时间方向上的依赖关系，此时梯度，包含哪些应该学习到有意义的信息，通过将这些信息向过去传递，RNN层学习长期的依赖关系，但是，如果这个梯度在中途变弱，则权重参数将不会被更新，也就是说，RNN层无法学习长期的依赖关系，

2023-06-12 16:26:22 1697

原创解读Lawyer LLaMA，延申专业领域大模型微调：数据集构建，模型训练

大模型微调思路和数据集构建方式大致是如此，实操中发现项目最难的一点在于怎么构建自己的数据，无监督数据量太大，解析起来很费功夫，有监督的数据怎么完美构建等，因此需要数据梳理之处将数据有效分类很重要，提高模型识别其最核心的结论在于，通过加入检索模块，可以提升问答的可靠性，并且通过引入垂直领域的预巡数据和微调数据，都可以提升其领域性能。但在具体实践中，还需要考虑到领域数据和通用数据的组成情况，以及与下游任务之间的对齐情况。

2023-06-05 17:44:00 3640

原创 BERT通过堆叠Transformer编码器

在BERT（Bidirectional Encoder Representations from Transformers）中，通过堆叠Transformer编码器（Transformer encoder），可以捕捉一个句子中深度双向的词与词之间的信息，并使用输出层中的特殊标记[CLS]的向量来表示整个句子的向量。通过堆叠Transformer编码器，并使用输出层中的[CLS] token的向量来表示整个句子的向量，BERT能够提供深度的双向上下文理解能力，从而在多种自然语言处理任务中取得了显著的效果。

2023-06-02 10:28:33 352

原创搜索系统【处理流程，意图识别，实体识别，属性对齐】

3．query二次解析，解析query中实体和筛选条件，根据query实体在对应场景中检索匹配实体结果并对齐实体中名称，同时处理筛选条件，采用Sentences-BERT语义相似度模型对齐属性名称，例如，获得结果1.地址：中关村，时间：2023年7月，类别：天气，2.地址：中关村路，时间：2023年7月，类别：天气，3.数据集构建，类似FAQ的方式，通过构建子问题模板来映射到主问题上，可以利用chatgpt等工具构建属性的相似性问法，例如天气的问法可能是天色，下雨，晴天等，构建模板形式同NER一样。

2023-05-27 17:11:49 555

原创 paddleNLP信息抽取模型实战（实体识别，关系抽取）

通过对这三个级别的对象进行Masking（遮挡），使模型能够学习到语言知识中的语法知识和语义知识。如假设训练句子为【长沙是湖南省的省会城市】，随机遮挡掉地名实体【长沙】，则模型能够在一定程度上学习到【长沙】与【湖南省】的关系，即模型能够学习到更多语义知识。它将BERT中单词级别的MASK拓展成三种级别的Knowledge Masking，从而让模型学习到更多语言知识，在多项任务实践效果上超越了BERT。对于给定的自然语言句子，根据预先定义的schema集合，抽取出所有满足schema约束的SPO三元组。

2023-05-27 17:07:55 2161

原创搜索系统（排序模块）详细介绍及实战落地

整个搜索系统运行的流程，当用户的query输入后，第一先经过文本预处理模块，修正的数据进行召回，精排，重排，然后返给用户搜索的结果。在自然语言处理（NLP）领域中，双塔模型是一种常见的模型结构，用于学习和比较文本之间的相似性或语义关系。双塔模型通常由两个对称的塔楼组成，每个塔楼用于处理一个文本输入，然后通过比较两个塔楼的输出来得到文本之间的相似性度量。

2023-05-25 19:08:16 827

原创 RNN循环神经网络

RNN网络中有两个权重,分别是将输入x转化为输出h的权重Wx和将前一个RNN层的输出转化为当前时刻的输出权重Wh,此外还有偏置b,这里的首先执行矩阵的乘积计算,然后使用双曲正切函数变化他们的和,其结果就是t时刻的输出ht,这个ht一方面向上输出到另一层,另一方面向右输出到RNN自身层,正向传播接收两个参数,新传入的数据,和循环后的数据,Rnn正向传播的计算有矩阵乘积,加法和双曲正切环数组成,此外,偏值b的加法运算会触发广播机制,因此这里需要加上repea节点。Time RNN层和RNN层。

2023-05-23 19:16:59 166

原创 chatglm-6B基础环境、模型下载、微调训练详细介绍

chatglm-6B基础环境、模型下载、微调训练详细介绍

2023-05-23 12:57:25 1789

原创 linux 换源工具 pqi

安装展示源列表pqi ls换源。

2023-04-27 17:40:15 142

原创 linux（centos7)离线安装A100显卡驱动cuda/cudnn 以及解决docker not select device driver...gpu

1.确认GPU型号和操作系统版本，本示例中以A100以及操作系统为Centos 7.9进行操作。准备GPU驱动和CUDA 11.2软件包，在nvidia官网进行驱动包和CUDA包下载链接:linux系统均选择 Linux 64-bitCUDA Toolkit选择最新版本如您需要老版本CUDA，请前往老版本CUDA下载本示例中使用CUDA 11.2。

2023-04-23 18:45:33 4754 2

原创 Faiss

Faiss是一个用于高效相似性搜索和密集向量聚类的库。它包含在任意大小的向量集中搜索的算法，直到可能不适合RAM的向量集。它还包含用于计算和参数调优的支持代码。Faiss是用c++编写的，带有Python/numpy的完整包装器。一些最有用的算法是在GPU上实现的。它主要由Meta的基础AI研究小组开发。介绍faiss包含了几种相似度搜索方法。它假设实例被表示为向量并由一个整数标识，并且这些向量可以与L2(欧几里得)距离或点积进行比较。

2023-04-14 16:08:50 414