自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 大模型中的Tokenizer

在使用GPT 、BERT模型输入词语常常会先进行tokenize。tokenize的目标是把输入的文本流,切分成一个个子串,每个子串相对有完整的语义,便于学习embedding表达和后续模型的使用。

2024-05-23 22:23:43 759

原创 基于modelscope的大模型下载方法

只需两步,就可利用model scope下载模型啦。1.model scope环境配置。

2024-05-22 21:19:38 317

原创 一文读懂基于PEFT大模型微调技术

可训练层维度和预训练模型层维度一致为d,先将维度d通过全连接层降维至r,再从r通过全连接层映射回d维度,其中,r

2024-05-20 11:54:26 1012

原创 一文读懂RAG

在 RAG 系统中,我们通常需要进一步处理检索到的内容。另一个优势是将信息检索过程转化为LLM可以理解的指令,从而提高知识检索的准确性,并使LLM能够生成上下文连贯的响应,从而提高RAG系统的整体效率。[88] 较大的块可以捕获更多的上下文信息,但也会产生更多的噪声,需要更长的处理时间和更高的成本。例如,对于某些特定类型的查询,可以选择特化的检索模块,或者针对特定的生成任务,选择一个适合该场景的生成器。粗粒度检索单元提供更相关的信息,但也可能包含冗余的内容,这可能会分散下游任务中检索器和语言模型的注意力。

2024-04-26 22:13:00 1278 1

原创 AI Agent论文阅读

环境反馈ReAct 实际上是一种通过多次调用 LLM 以交错的方式生成推理轨迹和特定于任务的动作,从而实现两者之间更大的协同作用推理轨迹帮助模型归纳、跟踪和更新行动计划以及处理异常,而操作允许它与外部源(例如知识库或外部环境、API)交互,以收集附加信息。Thought (思考)。LLM基于用户提出的问题进行推理(Reasoning),并根据推理的结果采取某种行为,类似人类大脑的思考、决策过程。Action (行为)。LLM将决策行为动作的指令发送给外部源(比如调用知识库、外部的API),这就是行为。

2024-04-25 22:56:34 657 2

原创 AI Agent

目前与AI的交互形式基本上都是你输入指令,AI模型会根据你的指令内容做出响应,这样就是导致你每次在进行提供有效的提示词才能达到你想要的效果。而AI Agent则不同,它被设计为具有独立思考和行动能力的AI程序。你只需要提供一个目标,比如写一个游戏、开发一个网页,他就会根据环境的反应和独白的形式生成一个任务序列开始工作。就好像是人工智能可以自我提示反馈,不断发展和适应,以尽可能最好的方式来实现你给出的目标。

2024-04-24 19:30:35 666

原创 LLM的进阶之路

本质是完形填空的模式,给定一个句子,随即掩盖掉一些词,然后让模型预测是什么,训练要同时考虑上下文 ,这就体现了BERT的双向性,比单向的搜索空间更大,因为他需要在整个词汇表中找最合适的词来填充每个空。采用的是自回归序列,给定一个序列,模型预测之后可能出现的不同单词,计算概率,选择最大概率输出,不断迭代能输出完整的句子。本质上他学习的是词与词之间的造句关系,搜索空间相对较小,就像一个人在不断自我学习,锻炼讲故事的能力。像善于分析的专家,输入一段文本,可以将文本拆解的头头是道。本质是把高维数据压缩到低维空间。

2024-04-22 21:26:30 243

原创 读懂 transformer

Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。

2024-04-17 21:51:57 931

原创 八股文——机器学习基础模型评估

计算公式 召回率(预测结果中真正的正例数)/(样本中所有的正例数)这里需要注意一个特点,真阳性率和召回率是一致的。召回率是对样本的评判 样本中有多少正样本被预测正确了精确率是对预测结果的评判计算公式 Precision=(预测结果中真正的正例数)/(预测结果中的正例数)预测结果中的正例数正例数包含两个方面1 正的预测为正的2 负的预测为正的如果查准率很大,当样本预测为正例时,那么这个样本为正例的把握就很大(1)首先,ROC曲线的横坐标是假阳性率FPR,纵坐标是真阳性率TPR。

2024-04-07 17:05:35 794

原创 八股文——机器学习基础归一化

不同特征之间往往量纲不同,变化区间的数量级也不同,这就会导致某些指标可能会被忽略,影响最终结果为了消除特征之间的量纲影响,需要进行归一化处理,解决特征之间的可比性,使各个特征之间处于同一数量级,可以直接进行对比评价。

2024-03-27 22:32:59 360

原创 八股文——机器学习基础Dropout

取平均的作用: 先回到正常的模型没有dropout),我们用相同的训练数据去训练5个不同的神经网1.络,一般会得到5个不同的结果,此时我们可以采用“5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。这种“综合起来取平均”的策略通常可以有效防止过拟合问题。2.减少神经元之间共适应关系: 因为dropout导致两个神经元不一定每次都在一个网络中出现,这样权值的更新不再依赖于有固定关系的隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况, 迫使网络去学习更加鲁棒的特征。

2024-03-24 20:43:24 195 1

原创 八股文——机器学习基础参数初始化

如果原始样本空间和类别空间差距较大,比如原始样本空间十分稀疏,类别空间十分稠密,那么在类别空间中得到的用于反向传播的误差对于样本空间根本就是微不足道的,模型训练非常缓慢;反过来如果样本空间十分稠密,类别空间十分稀疏,那么类别空间中得到的用于反向传播的误差对于样本空间就是爆炸性的,导致模型发散震荡,无法收敛。同一隐藏层的所有神经元的输出都是一致的,对于后期不同的batch,每一隐藏层的权重都能更新,但是存在每一隐藏层的隐藏神经元的权重都是一致的,多个隐藏神经元的作用相当于一个神经元。1.Xavier初始化。

2024-03-24 20:08:39 245 1

原创 八股文——机器学习基础优化函数

缺点是随着时间的推移,历史梯度平方和会越来越大,那么 学习率会越来越小,最后趋近于0,最后导致模型的参数虽然还具有较大梯度,但是参数却无法更新。因为频繁更新参数,参数方差大,会使目标函数剧烈抖动,一方面能更快的是目标函数跳到局部极小值,一方面会使目标函数在最小值附近上下波动。计算一个batch内的样本,更新参数,这个方法参数更新快,方差小,使用内存小,n通常取2的指数。能使更新幅度很大的参数的学习率变小,是更新幅度很小的参数学习率也减小。现根据当前的动量往前走一步,然后到达下一个点,计算此时的梯度更新。

2024-03-23 15:47:36 300 1

原创 八股文——机器学习基础激活函数

1.relu是分段函数2.relu本质上是分段线性激活函数,但可以不断分段逼近非线性激活函数当该网络足够复杂时,理论上relu可以逼近任意非线性激活函数。

2024-03-22 00:01:19 148 1

原创 八股文——机器学习基础损失函数

对于一个样本而言,J=(y-a)/2激活函数的梯度越大,权值w和b大小调整的越快,训练收敛的越快假使激活函数是sigmoid函数,当使用二次代价函数时,很可能会出现梯度消失,使用sigmoid函数在饱和区即x过大或者过小时,梯度是接近于0。

2024-03-21 22:11:16 472 1

原创 Improving Aspect Sentiment Quad Prediction via Template-Order Data Augmentation代码

7.修改from modelscope import snapshot_download model_dir = snapshot_download('AI-ModelScope/t5-base',cache_dir="/root/autodl-tmp/AspectQuad")#模型下载 from modelscope import snapshot_download model_dir = snapshot_download('AI-ModelScope/t5-base')6.更新python。

2024-02-28 16:19:16 295 1

原创 transformers基础组件trainer

trainer是transformers中提供的函数,内部封装了完整的训练,评估逻辑并集成了多种的 后端。

2024-01-21 22:38:28 385

原创 transformers基础组件evaluate

evaluate库是一个机器学习模型评估函数库,可以加载各种任务的评估函数。

2024-01-21 16:23:23 129

原创 transformers基础组件Datasets

Datesets库是一个简单易用的数据集加载库,可以方便快捷的加载数据集。

2024-01-20 00:07:47 162

原创 transformers基础组件model

【代码】学习transformers基础组件model。

2024-01-19 21:36:39 105

原创 transformers基础组件tokenizer

在以batch输入到模型的方式中,需要对过短的数据进行填充,对过长的数据进行截断,保证数据长度符合模型能接受的范围,同时batch内的数据维度一致。根据构建好的词典,将分词处理后的数据做映射,将文本序列转换为数字序列。根据数据集分词的结果,构建词典映射。使用分词器对文本数据进行分词。

2024-01-19 16:02:34 219

原创 transformers基础组件pipeline

将数据预处理、模型调用、结果后处理三部分组装成的流水线使我们能过直接输入文本便获得最终的答案。

2024-01-19 15:20:55 199

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除