自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(294)
  • 资源 (3)
  • 收藏
  • 关注

原创 10、ollama启动LLama_Factory微调大模型(llama.cpp)

在介绍了如何使用LLama_Factory微调大模型,并将微调后的模型文件合并导出,本节我们我们看下如何使用ollama进行调用。

2024-08-30 11:14:29 646

原创 9、LLaMA-Factory项目微调介绍

LLaMA Factory是一个在GitHub上开源的项目,该项目给自身的定位是:提供一个易于使用的大语言模型(LLM)微调框架,支持LLaMA、Baichuan、Qwen、ChatGLM等架构的大模型。更细致的看,该项目提供了从预训练、指令微调到RLHF阶段的开源微调解决方案。截止目前(2024年3月1日)支持约120+种不同的模型和内置了60+的数据集,同时封装出了非常高效和易用的开发者使用方法。

2024-08-28 16:26:17 620 1

原创 GLM-4-9B 支持 Ollama 部署

它提供了一个简单而高效的接口,用于创建、运行和管理这些模型,同时还提供了一个丰富的预构建模型库,可以轻松集成到各种应用程序中。通过Ollama,用户可以方便地部署和运行GLM-4-9B 等开源的大语言模型。此外,Ollama还提供了包括网页、桌面应用和终端界面在内的多种互动方式,方便用户使用和管理这些模型。在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 在各项能力上均表现出卓越的能力。该模型是在 GLM-4-9B 基础上持续训练的多语言代码生成模型,显著提升了代码生成能力。

2024-07-12 11:06:41 873

原创 linux安装Miniconda

每次打开terminal时自动激活base环境。Miniconda官网下载。将下载的文件上传到服务器。查看anaconda信息。按照提示一路向下,内容。成功激活base环境。

2024-07-11 15:18:31 277

原创 8、Windows 部署ollama

一个本地运行大模型的集成框架,目前主要针对主流的LLaMA架构的开源大模型设计,通过将模型权重、配置文件和必要数据封装进由Modelfile定义的包中,从而实现大模型的下载、启动和本地运行的自动化部署及推理流程。此外,Ollama内置了一系列针对大模型运行和推理的优化策略,目前作为一个非常热门的大模型托管平台,已被包括LangChain、Taskweaver等在内的多个热门项目高度集成。

2024-07-10 13:53:41 422

原创 《Attention Is All You Need》解读

是一篇由Ashish Vaswani等人在2017年发表的论文,它在自然语言处理领域引入了一种新的架构——Transformer。这个架构现在被广泛应用于各种任务,如机器翻译、文本摘要、问答系统等。Transformer模型的核心是“自注意力”(self-attention)机制,这一机制能够有效捕捉文本序列中的长距离依赖关系。

2024-07-04 17:07:39 1085

原创 seq2seq+Attention机制原理介绍

Attention机制是一项先进技术,用于增强基于循环神经网络(RNN)、长短时记忆网络(LSTM)和门控循环单元(GRU)的编码器-解码器模型性能。它通常被称作Attention Mechanism,在深度学习领域非常流行,广泛应用于机器翻译、语音识别、图像标注等多个领域。Attention机制的作用与流行原因通过为序列中每个元素分配不同权重,Attention机制增强了模型的信息区分和识别能力。这种权重分配让模型更灵活地学习,尤其是在处理句子中每个词时,能根据其对翻译或识别结果的重要性进行调整。

2024-07-03 16:50:12 772

原创 seq2seq原理介绍

Seq2Seq模型,即序列到序列模型,是一种深度学习架构,它能够接收一个序列作为输入,并通过特定的生成方法生成另一个序列作为输出。这种模型的一个关键特点是,输入序列和输出序列的长度可以是不同的,从而解决了传统循环神经网络(RNN)在处理不等长序列时的限制。Seq2Seq模型通常采用编码器-解码器(Encoder-Decoder)结构,这也是其另一个常用的名称。在这个结构中,编码器负责将输入序列编码成一个固定长度的向量,这个向量捕捉了输入序列的语义信息。然后,解码器利用这个向量来生成输出序列。

2024-06-28 10:18:46 944

原创 Bert基础(二十二)--Bert实战:对话机器人

生成式对话机器人是一种能够通过自然语言交互来理解和生成响应的人工智能系统。它们能够进行开放域的对话,即在对话过程中,机器人可以根据用户的需求和上下文信息,自主地生成新的、连贯的回复,而不仅仅是简单地检索或匹配预先设定好的答案。生成式对话机器人是一种强大的AI工具,它们能够与人类进行自然的语言交流,并在各种场景下提供帮助和服务。随着技术的不断进步,生成式对话机器人的应用范围还在不断扩大,未来它们将在更多领域发挥重要作用。因果语言模型。

2024-05-11 16:35:37 324

原创 Bert基础(二十一)--Bert实战:文本摘要

文本摘要(Text Summarization),作为自然语言处理(NLP)领域的一个分支,其核心目标是从长篇文档中提取关键信息,并生成简短的摘要,以提供对原始内容的高度概括。这一过程不仅有助于用户迅速把握信息的核心,而且对于有效组织和归纳大量的文本数据至关重要。文本摘要的任务可以根据不同的输入和输出进行分类。首先,根据输入文档的数量,可以将摘要任务分为单文档摘要和多文档摘要。单文档摘要专注于处理单个文档,而多文档摘要则需要整合多个相关文档的信息。

2024-04-30 14:54:33 1446

原创 Bert基础(二十)--Bert实战:机器阅读理解任务

也就是Tanoue在原始文本中占一个字符,但是分词后,它占了三个,所以我们在定位答案的起始位置时需要根据一个字符进行定位,但是我们训练处理的时候时使用编码后的input_ids,所以我们就必须把offsets_mapping和原始的内容匹配好才能根据起始位置找到真正的答案。同时答案可能同时出现了多个窗口,因为有数据的重复,而且相似的答案也可能会出现在不同的位置,所以我们后面处理的时候需要进行对比。:北京是中国的首都,它是一座历史悠久的城市,有着丰富的文化遗产和现代化的城市景观。

2024-04-29 15:22:57 2033

原创 Bert基础(十九)--Bert实战:文本相似度匹配

文本匹配是指计算机系统识别和确定两段文本之间关系的任务。这个概念非常广泛,涵盖了各种场景,其中文本之间的关系可以是有相似度、问答、对话、推理等。在不同的应用场景下,文本匹配的具体定义可能会有所不同。本次先介绍最简单的文本相似度计算的任务,后面将其他的信息检索、机器翻译、文本生成、对话系统等任务进行实战。基本步骤:fill:#333;color:#333;color:#333;fill:none;1 加载数据集2 数据预处理3 创建模型4 创建评估函数5 创建训练器6 训练模型7 评估。

2024-04-29 10:04:47 1503

原创 Bert基础(十八)--Bert实战:NER命名实体识别

命名实体识别(NER)是自然语言处理(NLP)中的一项关键技术,它的目标是从文本中识别出具有特定意义或指代性强的实体,并对这些实体进行分类。这些实体通常包括人名、地名、组织机构名、日期、时间、专有名词等。NER在许多实际应用中都非常重要,如信息提取、文本挖掘、机器翻译、自动摘要等。实体的边界识别:这部分任务是要确定文本中实体的起始和结束位置,即在文本中准确地定位出实体的边界。确定实体的类型:在识别出实体的边界之后,还需要确定每个实体的具体类型,如人名、地名、机构名等。例如,在处理文本。

2024-04-24 11:03:39 2261

原创 Bert基础(十七)--Bert实战:中文情感识别

说了中文分类的过程,这次说一下情感分类相关的代码,其实情感分类也属于中文多分类的一种,知识情感分类一般会专门区分出来,但是代码基本是一致的,基本步骤:fill:#333;color:#333;color:#333;fill:none;1 加载数据集2 数据预处理3 创建模型4 创建评估函数5 创建训练器6 训练模型7 评估8 预测。

2024-04-24 09:22:23 1243

原创 Bert基础(十六)--Bert实战:中文文本分类任务-- transformers库实现

Hugging Face 的 Transformers 库是一个开源库,它提供了大量预训练的模型,用于自然语言处理(NLP)任务,如文本分类、命名实体识别、机器翻译、问答系统等。这个库的特点是易于使用,支持多种模型架构,包括但不限于 BERT、GPT、RoBERTa、XLNet 等,并且可以轻松地在不同的任务上微调这些模型。以下是使用 Hugging Face Transformers 库进行情感分类的基本步骤:fill:#333;color:#333;color:#333;fill:none;

2024-04-19 11:31:50 2857

原创 Bert基础(十三)--Bert变体之知识蒸馏训练

请注意,我们是将特定任务的知识从教师迁移给学生,因此,要先针对特定任务微调预训练的BERT-large模型,然后将其作为教师。因此,在进行蒸馏时,也就是在将知识从教师(BERT-base模型)迁移到学生(TinyBERT模型)时,我们使用相同的数据集。这里,我们使用大型的预训练BERT模型(BERT-base模型)作为教师,并通过蒸馏将知识迁移到小型的学生BERT模型(TinyBERT模型)。我们将特定任务的知识从教师迁移给学生,因此,如前所述,将采用为特定任务微调后的预训练的BERT模型作为教师。

2024-04-19 09:20:55 751

原创 白话transformer(六)编码器与解码器

今天我们将探讨Transformer模型中的两个核心组件:编码器和解码器。我们将通过一个具体的任务——将中文算术表达式翻译成英文——来深入理解这两个组件的工作原理。transform的原始论文中,整体的架构是有编码器和解码器组成的,但是根据任务不同,有的只需要编码器,比如Bert;有的只需要使用解码器,比如GPT系列模型;还有的是需要编码器和解码器都使用的,比如机器翻译任务。

2024-04-15 09:22:42 1413

原创 Bert基础(十二)--Bert变体之知识蒸馏原理解读

知识蒸馏(knowledge distillation)是一种模型压缩技术,它是指训练一个小模型来重现大型预训练模型的行为。知识蒸馏也被称为师生学习,其中大型预训练模型是教师,小模型是学生。让我们通过一个例子来了解知识蒸馏是如何实现的。假设预先训练了一个大模型来预测句子中的下一个单词。我们将大型预训练模型称为教师网络。我们输入一个句子,让网络预测句子中的下一个单词。它将返回词表中所有单词是下一个单词的概率分布,如图所示。为了更好地理解,我们假设词表中只有5个单词。

2024-04-03 15:34:21 794

原创 Bert基础(十一)--Bert变体之ELECTRA

ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately,高效训练编码器准确分类替换标记)是BERT的另一个变体。我们已知要使用掩码语言模型构建任务和下句预测任务对BERT进行预训练。在掩码语言模型构建任务中,我们随机掩盖15%的标记,并训练BERT来预测被掩盖的标记。但是,ELECTRA没有使用掩码语言模型构建任务作为预训练目标,而是使用一个叫作替换标记检测的任务进行预训练。

2024-04-03 09:24:49 826

原创 Bert基础(十)--Bert变体之RoBERTa

RoBERTa是BERT的另一个有趣且流行的变体。研究人员发现,BERT的训练远未收敛,所以他们提出了几种对BERT模型预训练的方法。RoBERTa本质上是BERT,它只是在预训练中有以下变化。

2024-04-02 09:27:23 936

原创 Bert基础(九)--Bert变体之ALBERT

在接下来的几篇,我们将了解BERT的不同变体,包括ALBERT、RoBERTa、ELECTRA和SpanBERT。我们将首先了解ALBERT。ALBERT的英文全称为A Lite version of BERT,意思是BERT模型的精简版。ALBERT模型对BERT的架构做了一些改变,以尽量缩短训练时间。本章将详细介绍ALBERT的工作原理及其与BERT的不同之处。

2024-04-01 15:26:48 1380

原创 7、Qwen-7B 部署实践

Qwen(通义千问)由阿里云团队研发,其训练数据覆盖多语言,但主要以中文和英文为主。Qwen的系列模型主要有两类,一类是基座模型Qwen,所谓基座模型,指的是在海量的数据集上进行预训练,这些数据集可能包含了广泛的主题、语境和样式,使得基座模型能够捕捉到丰富的语言特征和通用知识。另外一类是Chat类模型,是利用SFT和RLHF技术实现对齐,从基座模型训练得到对话模型。目前开源模型的参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。

2024-04-01 11:09:45 2963

原创 6、ChatGLM3-6B 部署实践

ChatGLM3 是智谱AI和清华大学 KEG 实验室在2023年10月27日联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,免费下载,免费的商业化使用。性能层面,ChatGLM3-6B在10B范围内性能最强,推理能力直逼GPT-3.5;功能层面,ChatGLM3-6B重磅更新多模态功能、代码解释器功能、联网功能以及Agent优化功能四项核心功能,全线逼近GPT-4!

2024-03-27 11:00:21 1366

原创 Bert基础(八)--Bert实战之理解Bert微调

到目前为止,我们已经介绍了如何使用预训练的BERT模型。现在,我们将学习如何针对下游任务微调预训练的BERT模型。需要注意的是,微调并非需要我们从头开始训练BERT模型,而是使用预训练的BERT模型,并根据任务需要更新模型的权重。在本节中,我们将学习如何为以下任务微调预训练的BERT模型。

2024-03-26 13:38:30 1940

原创 Bert基础(七)--Bert实战之理解Bert模型结构

在篇我们将详细学习如何使用预训练的BERT模型。首先,我们将了解谷歌对外公开的预训练的BERT模型的不同配置。然后,我们将学习如何使用预训练的BERT模型作为特征提取器。此外,我们还将探究Hugging Face的Transformers库,学习如何使用Transformers库从预训练的BERT模型中提取嵌入。接着,我们将了解如何从BERT的编码器层中提取嵌入,并学习如何为下游任务微调预训练的BERT模型。

2024-03-26 09:21:52 1294

原创 Bert基础(六)--Bert模型预训练

在本节中,我们将学习如何对BERT模型进行预训练。假设我们有一个模型m。首先,我们使用一个大型数据集针对某个具体的任务来训练模型m,并保存训练后的模型。然后,对于一个新任务,我们不再使用随机的权重来初始化模型,而是用已经训练过的模型的权重来初始化m(预训练过的模型)。也就是说,由于模型m已经在一个大型数据集上训练过了,因此我们不用为一个新任务从头开始训练模型,而是使用预训练的模型m,并根据新任务调整(微调)其权重。这是迁移学习的一种类型。

2024-03-25 11:19:33 1230

原创 Bert基础(五)--Bert基本原理

我们将开始了解流行且先进的文本嵌入模型BERT。由于在许多自然语言处理任务上的卓越表现,BERT彻底改变了自然语言处理的方法。首先,我们将了解什么是BERT,以及它与其他嵌入模型的区别。然后,我们将详细分析BERT的工作原理和基础配置。接下来,我们将通过两个任务来了解BERT模型是如何进行预训练的。这两个任务分别为掩码语言模型构建和下句预测。然后,我们将分析BERT的预训练过程。最后将讲解几种有趣的子词词元化算法,包括字节对编码、字节级字节对编码和WordPiece。

2024-03-25 09:21:56 963

原创 5. GLM4入门介绍

也就是说,assistant消息和role消息是一一对应的,而且在一般情况下,assistant消息只会围绕messages参数中的最后一个role信息进行回答。system role用于身份设定不过,值得一提的是,user和assistant的这种提问方式尽管足够清晰,但往往形式上不够丰富,例如在实践中人们发现,给聊天机器人进行一个身份设置,其实是非常有效的引导模型创作我们想要的结果的方法,例如如果我们希望获得一个关于“什么是机器学习?

2024-03-21 15:08:35 3856

原创 白话transformer(五):位置编码

在前面其实讲过,这次我们具体看看他的数学原理白话transformer(五)

2024-03-21 09:12:59 1291

原创 Bert基础(十四)-- 实战篇:transformer-中文多分类

transformer的原理部分在前面基本已经介绍完了,接下来就是代码部分,因为transformer可以做的任务有很多,文本的分类、时序预测、NER、文本生成、翻译等,其相关代码也会有些不同,所以会分别进行介绍但是对于不同的任务其流程是一样的,所以一些重复的步骤就不过多解释了。

2024-03-19 18:22:45 820

原创 白话transformer(四):整体架构介绍

transformer现在是最主流的深度学习框架,尤其是大模型的流程让transformer的作用更加凸显,他可以对话、分类、生成文本等功能,那么他到底是如何工作的呢。

2024-03-19 09:20:13 1114

原创 白话transformer(三):Q K V矩阵代码演示

在前面讲解了QKV矩阵的原理,属于比较主观的解释,下面用简单的代码再过一遍加深下印象。白话transformer(三)

2024-03-15 07:55:31 1673

原创 深度学习&PyTorch 之 LSTM-中文多分类

定义LSTM模型else:具体解析可参考RNN代码解析唯一的不同这里介绍下,就是RNN没有cell,所以这里需要加上。在模型中,这行代码是对RNN层的最后一个时间步的隐藏状态应用dropout正则化。hidden: 这是RNN层的输出之一,表示隐藏状态。对于每个时间步,RNN会产生一个隐藏状态。如果RNN是多层(n_layers大于1),那么每个时间步的隐藏状态会经过所有的层。因此,hidden的形状将是,其中是1(单向)或2(双向)。: 这里,-1索引表示选择最后一个RNN层的输出。

2024-03-15 07:28:34 1047 1

原创 RNN和LSTM的几个问题探讨

每次提到RNN最先遇到的问题肯定是梯度消失和梯度爆炸,那么什么是梯度消失和梯度爆炸?RNN中为什么会出现这个问题呢?梯度消失和梯度爆炸是深度学习模型,特别是在训练递归神经网络(RNN)和深度前馈神经网络时可能遇到的两个主要问题。这两个问题都源于神经网络中梯度的连乘效应。梯度消失和梯度爆炸是RNN在反向传播过程中常见的问题,RNN的反向传播是通过时间的反向传播”(Backpropagation Through Time,BPTT),其运行流程与一般的反向传播大有不同。在不同类型NLP任务会有不同的输出层结构、

2024-03-13 09:18:00 1115 1

原创 白话transformer(二):Q K V矩阵

前面说了注意力机制的工作原理,本次来看看为了实现自注意力机制,Q K V矩阵是如何实现的。白话transformer(二)

2024-03-13 09:17:07 2408

原创 遗传算法理解与代码实战(二)- demo(python+deap)

在DEAP库中,algorithmsbasecreator和tools是核心模块,它们提供了构建和运行进化算法所需的各种组件和工具。# 定义问题:求最大化问题# 定义适应度函数# 将二进制转换为十进制# 计算适应度# 将适应度函数与个体评估过程绑定这个与之前一样不过多介绍。

2024-03-07 15:16:43 1059

原创 遗传算法理解与代码实战(一)- demo(python手写代码)

适应度函数,计算个体的适应度x = int(''.join(str(gene) for gene in chromosome), 2)#转换成十进制# 选择函数,基于适应度进行选择# 交叉函数,随机选择交叉点,进行基因交换else:# 变异函数,随机翻转基因population: 这是一个参数,代表当前种群的个体集合。在遗传算法中,种群是所有可能的解决方案的集合。这里使用列表推导式来计算种群中每个个体的适应度值。

2024-03-07 11:08:11 1097

原创 深度学习&PyTorch 之 RNN-中文多分类【代码解析】

文章给出了RNN-中文多分类的代码实现,本次主要是对RNN的架构进行一个详细的解析。

2024-03-04 15:08:13 1002

原创 白话transformer(一):注意力机制

前面我们分篇讲述了transformer的原理,但是对于很多刚接触transformer的人来说可能会有一点懵,所以我们接下来会分三篇文章用白话的形式在将transformer 讲一遍。前文链接注意力机制其实最大的作用就是对词嵌入也就是embedding的优化,下面我们来看下是怎么做到的。

2024-03-04 15:07:26 1682

原创 深度学习&PyTorch 之 RNN-中文多分类

关于RNN的理论部分我们已经在前面介绍过,所以这里直接上代码数据是csv格式,只有两列,第一列是标签(但是为中文),第二列是text,文本内容。当然这里也可以加入停用词我们需要构建和处理文本数据的词汇表。词汇表是自然语言处理中的一个基本概念,它将文本中的单词映射到唯一的整数ID上。这样,文本数据就可以被转换为机器可以理解的数字格式。创建好的词汇表如下我们之前看到标签是,等文本,需要转换成数值标签代码中给出了详细的注释,所以就不过多的解释。查看下数据模型结构3、 开始训练完整代码

2024-02-28 15:35:25 2281

Attention Is All You Need论文

"Attention Is All You Need" 论文的详细解读如下: 1. 摘要(Abstract): 论文摘要简要介绍了Transformer模型,一种基于注意力机制的序列到序列学习模型。摘要提到,Transformer摒弃了传统的循环和卷积层,完全依赖于注意力机制来实现输入和输出序列之间的关联。实验结果表明,在翻译质量、并行能力和所需训练时间方面,Transformer优于此前的方法。 2. 引言(Introduction): 引言部分首先回顾了传统的序列到序列模型,特别是基于RNN和CNN的模型,并指出了它们在处理长距离依赖和并行计算方面的局限性。随后,作者介绍了注意力机制,并强调了其在机器翻译等任务中的重要性。最后,作者总结了Transformer模型的主要特点和实验结果,指出其在翻译质量和模型效率方面的优势。 3. 相关工作(Background): 在这一部分,作者简要回顾了与Transformer模型相关的先前工作,包括传统的序列到序列模型、基于注意力机制的模型以及一些优化技术。这些工作为Transformer模型的设计提供了理论基础和实践经验。

2024-07-04

RAG技术知识图谱概览

RAG技术知识

2024-05-22

RNN循环神经网络代码

RNN循环神经网络代码

2024-02-28

回归样本数据(教育年限与收入关系)

回归样本数据(教育年限与收入关系)

2023-01-10

时间序列样例数据(股票数据)

时间序列样例数据(股票数据) 可用于时间序列分析进行测试 时间颗粒度为“天” 包含每一天的开盘价、收盘价、最低值、最高值

2023-01-04

iris鸢尾花数据集下载

鸢尾花数据

2022-01-17

orange中文版.txt

orange中文版

2022-01-17

diabetes_train.txt

糖尿病数据集,主要用于机器学习或者深度学习分类算法,共有9个字段 前8个维变量,最后一个字段为标签,为二分类数据集,当然自己可以转换成ONE-HOT类型

2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除