- 博客(55)
- 收藏
- 关注
原创 Qwen-VL论文解读
在本文中,我们介绍了Qwen-VL系列,这是一组大规模的视觉-语言模型(LVLMs),旨在感知和理解文本和图像。从Qwen-LM开始,我们通过精心设计的(i)视觉受体,(ii)输入-输出接口,(iii)3阶段训练管道,以及(iv)多语言多模态清洗语料库,赋予其视觉能力。除了传统的图像描述和问答,我们还通过图像-标题-框元组的对齐实现了Qwen-VLs的定位和文本阅读能力。
2025-01-16 18:03:15
572
原创 qwen2-vl模型推理代码,以及min_pixels和max_pixels设置
max_pixels 决定了模型在处理图像时,允许输入图像的最大像素数量。如果输入图像的像素超过设定值,通常会对图像进行缩放或裁剪。
2025-01-15 11:20:54
532
原创 YOLO11训练自己的数据集图文实战,一站式训练和到部署推理,包含voc数据集处理代码
yolov8官方链接:本文章是以labelimg标注好的voc数据集为基础,通过转换格式训练模型,
2025-01-14 18:49:27
654
原创 在Linux中,分卷压缩
不支持大文件:在某些较旧的Linux系统上,zip和unzip命令可能不支持大文件(超过2GB)。在Linux中,分卷压缩是一种将大文件或目录分割成多个较小文件的方法,以便更方便地进行存储、传输或处理。这将生成一系列以myfolder.zip为前缀的分卷文件,如myfolder.zip.z01、myfolder.zip.z02等,每个文件的大小不超过100MB。确保所有分卷文件都完整无缺是解决这个问题的关键。传输方便:在网络传输大文件时,分卷压缩可以避免网络中断导致的传输失败,同时方便分段下载。
2024-12-19 11:00:12
565
原创 【大模型训练集RLHF,SFT,DPO,多模态的构建格式以及示例解析】
解释:在指令监督微调时,instruction 列对应的内容会与 input 列对应的内容拼接后作为人类指令,即人类指令为 instruction\ninput。Sharegpt 格式的偏好数据集同样需要在 chosen 列中提供更优的消息,并在 rejected 列中提供更差的消息。role: 指示说话者的角色,可能是“human”(人类用户)或“assistant”(模型助手)。结构: 同样是一个对象,包含角色和文本,表明这是一个被拒绝的输出。描述: 表示在给定上下文中,人类不选择的助手响应。
2024-11-05 09:46:31
1219
原创 模型django封装uvicorn服务器部署实战
Uvicorn 是一个轻量级的 ASGI 服务器,它基于 uvloop 和 httptools 这两个高性能的异步库。Uvicorn 提供了快速的启动时间和低延迟的响应,非常适合用于生产环境。是一个开源且强大的Web框架,适用于快速开发和部署Python Web应用程序。3.启动django项目。2.安装Uvicorn。1.安装django。
2024-09-24 16:01:41
413
原创 LLama-Factory大模型训练框架,基于自己数据集微调qwen7B模型实战
LLama-Factory,大模型训练框架,支持多种模型,多种训练方式,link。
2024-07-04 11:17:36
2735
2
原创 mmdetection使用自己的voc数据集训练模型实战
一.自己数据集整理将labelimg格式数据集进行整理1.1. 更换图片后缀为jpg2.删除xml和jpg名称不对应的图片1.3 查看class name1.4 创建以下目录结构其中JPEGImgs里面是所有图片Annotations里面是所有xml文件dataset.py文件代码为准备好一切后,python dataset.py自动划分数据集由此,数据集已经准备完成。
2024-02-06 15:27:00
1465
原创 mmdetection模型转onnx和tensorrt实战
mmdetection 中cascade-rcnn转tensorrt模型,并进行api推理
2024-02-05 15:50:53
1323
1
原创 GLM 130B和chatGLM2-6B模型结构
可以自由设置单词mask,句子smask,文章gmask,可以根据任务的不同设置mask,文本理解设置单词级别mask,文本生成色湖之句子级别的gmask,glm130B中设置的师70%句子级别gmask,30%词级别mask,3,RoPE旋转式编码,绝对编码实现相对编码,主要就是对每个位置token中的q, k向量乘以矩阵,然后用更新的q,k向量做attention中的内积就会引入相对位置信息了。整个流程,相当于forward 参数的计算都是fp16,,更新梯度使用fp32,有更长的表示范围,
2023-07-11 19:11:37
2245
原创 LLaMA
和transformer不同的是,为了提高训练的稳定性,作者对transformer子层的输入进行归一化,而不是输出部分,残差链结构在进行归一化,使用RMSNorm归一化函数,swiGLU激活函数,代替RELU。基于transforme架构,7B模型堆叠32个decoder模块,输入维度是4096,每个mutil head attention中头的个数32个,预训练模型是使用1T的token,研究表明,最好的模型性能不是由最大的模型体积实现,而是在更多的数据上训练较小的模型实现。380个令牌/秒/GPU。
2023-07-03 17:36:15
782
原创 Transformer面试题总结
BN是对同一个batch内的所有数据的同一个特征数据进行操作;1.2 解码器:解码器同样由N=6相同的层组成,除了和编码器有两个相同的子层以外,解码器第三个子层是带有掩码的注意力机制,Mask mutil-Head Attention ,做解码是一个自回归,需要确保当前时刻t的位置不会关注t以后的数据。(做内积的目的是计算q和k两个向量的相似度,两个向量越接近相似度越高,一个query中有n个q v 对,最后输出是n个结果,最后softmax会得到n个和为1的权重,乘以v得到最后的输出)
2023-06-27 15:56:54
583
原创 注意力机制,解码器和编码器的改进
Attention的结构Seq2seq是一个非常强大的框架,应用面很广,这里我们将介绍进一步强化seq2seq的注意力机制,基于attention机制,seq2seq可以像我们人类一样,将注意力集中在必要的信息上,
2023-06-20 18:22:00
722
原创 LSTM输出门,遗忘门,输入门详细介绍以及代码实现
在学习正确解标签时,重要的是RNN层的存在,RNN层通过向过去传递有意义的梯度,能够学习时间方向上的依赖关系,此时梯度,包含哪些应该学习到有意义的信息,通过将这些信息向过去传递,RNN层学习长期的依赖关系,但是,如果这个梯度在中途变弱,则权重参数将不会被更新,也就是说,RNN层无法学习长期的依赖关系,
2023-06-12 16:26:22
2236
原创 解读Lawyer LLaMA,延申专业领域大模型微调:数据集构建,模型训练
大模型微调思路和数据集构建方式大致是如此,实操中发现项目最难的一点在于怎么构建自己的数据,无监督数据量太大,解析起来很费功夫,有监督的数据怎么完美构建等,因此需要数据梳理之处将数据有效分类很重要,提高模型识别其最核心的结论在于,通过加入检索模块,可以提升问答的可靠性,并且通过引入垂直领域的预巡数据和微调数据,都可以提升其领域性能。但在具体实践中,还需要考虑到领域数据和通用数据的组成情况,以及与下游任务之间的对齐情况。
2023-06-05 17:44:00
3911
原创 BERT通过堆叠Transformer编码器
在BERT(Bidirectional Encoder Representations from Transformers)中,通过堆叠Transformer编码器(Transformer encoder),可以捕捉一个句子中深度双向的词与词之间的信息,并使用输出层中的特殊标记[CLS]的向量来表示整个句子的向量。通过堆叠Transformer编码器,并使用输出层中的[CLS] token的向量来表示整个句子的向量,BERT能够提供深度的双向上下文理解能力,从而在多种自然语言处理任务中取得了显著的效果。
2023-06-02 10:28:33
404
原创 搜索系统【处理流程,意图识别,实体识别,属性对齐】
3.query二次解析,解析query中实体和筛选条件,根据query实体在对应场景中检索匹配实体结果并对齐实体中名称,同时处理筛选条件,采用Sentences-BERT语义相似度模型对齐属性名称,例如,获得结果1.地址:中关村,时间:2023年7月,类别:天气,2.地址:中关村路,时间:2023年7月,类别:天气,3.数据集构建,类似FAQ的方式,通过构建子问题模板来映射到主问题上,可以利用chatgpt等工具构建属性的相似性问法,例如天气的问法可能是天色,下雨,晴天等,构建模板形式同NER一样。
2023-05-27 17:11:49
715
原创 paddleNLP信息抽取模型实战(实体识别,关系抽取)
通过对这三个级别的对象进行Masking(遮挡),使模型能够学习到语言知识中的语法知识和语义知识。如假设训练句子为【长沙是湖南省的省会城市】,随机遮挡掉地名实体【长沙】,则模型能够在一定程度上学习到【长沙】与【湖南省】的关系,即模型能够学习到更多语义知识。它将BERT中单词级别的MASK拓展成三种级别的Knowledge Masking,从而让模型学习到更多语言知识,在多项任务实践效果上超越了BERT。对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。
2023-05-27 17:07:55
2396
原创 搜索系统(排序模块)详细介绍及实战落地
整个搜索系统运行的流程,当用户的query输入后,第一先经过文本预处理模块,修正的数据进行召回,精排,重排,然后返给用户搜索的结果。在自然语言处理(NLP)领域中,双塔模型是一种常见的模型结构,用于学习和比较文本之间的相似性或语义关系。双塔模型通常由两个对称的塔楼组成,每个塔楼用于处理一个文本输入,然后通过比较两个塔楼的输出来得到文本之间的相似性度量。
2023-05-25 19:08:16
982
原创 RNN循环神经网络
RNN网络中有两个权重,分别是将输入x转化为输出h的权重Wx和将前一个RNN层的输出转化为当前时刻的输出权重Wh,此外还有偏置b,这里的首先执行矩阵的乘积计算,然后使用双曲正切函数变化他们的和,其结果就是t时刻的输出ht,这个ht一方面向上输出到另一层,另一方面向右输出到RNN自身层,正向传播接收两个参数,新传入的数据,和循环后的数据,Rnn正向传播的计算有矩阵乘积,加法和双曲正切环数组成,此外,偏值b的加法运算会触发广播机制,因此这里需要加上repea节点。Time RNN层和RNN层。
2023-05-23 19:16:59
198
原创 linux(centos7)离线安装A100显卡驱动cuda/cudnn 以及解决docker not select device driver...gpu
1.确认GPU型号和操作系统版本,本示例中以A100以及操作系统为Centos 7.9进行操作。准备GPU驱动和CUDA 11.2软件包,在nvidia官网进行驱动包和CUDA包下载链接:linux系统均选择 Linux 64-bitCUDA Toolkit选择最新版本如您需要老版本CUDA,请前往老版本CUDA下载本示例中使用CUDA 11.2。
2023-04-23 18:45:33
5499
2
原创 Faiss
Faiss是一个用于高效相似性搜索和密集向量聚类的库。它包含在任意大小的向量集中搜索的算法,直到可能不适合RAM的向量集。它还包含用于计算和参数调优的支持代码。Faiss是用c++编写的,带有Python/numpy的完整包装器。一些最有用的算法是在GPU上实现的。它主要由Meta的基础AI研究小组开发。介绍faiss包含了几种相似度搜索方法。它假设实例被表示为向量并由一个整数标识,并且这些向量可以与L2(欧几里得)距离或点积进行比较。
2023-04-14 16:08:50
469
原创 搜索系统中,智能问答系统落地应用(非结构化数据,图谱,信息抽取,文本检索)
需要先按照实体标注规范标注模型训练集,然后训练出实体抽取模型,接下来抽取非结构化文档数据,抽取后的实体按照图谱标准格式存入图数据库和ES中。具体实操步骤参考链接:link。
2023-04-04 15:22:17
919
原创 NLP自然语言处理理论解释(单词分布式表示,共现矩阵,word2vec,CBOW模型详解)
NLP自然语言处理理论解释(单词分布式表示,共现矩阵,word2vec,CBOW模型详解)
2023-03-21 18:33:34
1653
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人