![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
AI+LLM
文章平均质量分 80
机器学习及大模型
dc爱傲雪和技术
极限运动员
展开
-
特征值究竟体现了矩阵的什么特征?
这个映射具有的性质,就被所有能够用相似变换所观察到的其他矩阵所共有。在某些方向上,方向不变时,伸长的倍数是保持的。这就是为什么**所有相似矩阵,他们特征值的集合是一样的。重新将这些特征向量组合起来,将变换后的这些组合的系数向量使用线性映射P再变回去,就得到了原始空间的最终结果。在特征向量的视角下,矩阵的迭代累乘变得特别简单,才使得我们可以用特征分解快速的计算出一个矩阵的幂次。线性空间当中几乎所有向量,经过某个线性映射的反复迭代以后,都会趋近于特征值最大的一个方向。头尾两个矩阵,就是这两个视角的转移矩阵。原创 2024-07-10 16:29:03 · 656 阅读 · 0 评论 -
什么是自回归模型
自回归模型(Autoregressive Model, AR模型)是时间序列分析中的一种基本模型,其核心思想是当前观测值可以通过其过去的若干个观测值的加权和来预测,其中的权重参数由数据自身决定。数学上,一个自回归模型可以表示为:Xtcϕ1Xt−1ϕ2Xt−2⋯ϕpXt−pϵtXtcϕ1Xt−1ϕ2Xt−2⋯ϕpXt−pϵtXtX_tXt) 是在时间 (ttt。原创 2024-07-07 12:41:23 · 656 阅读 · 0 评论 -
为何现在的大模型大部分是Decoder only结构
适用于需要深度理解和表征输入的任务。:适用于生成任务,因其高效的训练和推理能力以及对生成序列的适应性。:适用于需要复杂输入输出转换的任务,尽管其在参数量和计算需求上更高,但在特定任务上能够发挥出色的性能。理解这些架构的优缺点和适用场景,可以更好地应用和开发NLP模型,满足实际需求。为什么现在的LLM都是Decoder only的架构?_为什么decoder-only的模型这么火-CSDN博客。原创 2024-07-06 23:45:11 · 1150 阅读 · 0 评论 -
大模型常用微调方法LORA和Ptuning的原理
Lora方法的核心是在大型语言模型上对指定参数增加额外的低秩矩阵,也就是在原始PLM旁边增加一个旁路,做一个降维再升维的操作。并在模型训练过程中,固定PLM的参数,只训练降维矩阵A与升维矩阵B。Ptuning方法的核心是使用可微的virtual token替换了原来的discrete tokens,且仅加入到输入层,并使用prompt encoder(BiLSTM+MLP)对virtual token进行编码学习。这两种方法都是为了在的前提下,以较低的计算和存储成本,实现模型的有效自定义和优化。原创 2024-07-04 17:02:30 · 277 阅读 · 0 评论 -
labelme使用报错解决
【代码】labelme使用报错解决。原创 2024-07-01 19:20:57 · 239 阅读 · 1 评论 -
LangChain框架介绍
LangChain 的核心组件模型 I/O 封装LLMs:大语言模型Chat Models:一般基于 LLMs,但按对话结构重新封装PromptTemple:提示词模板OutputParser:解析输出数据连接封装Document Loaders:各种格式文件的加载器Document Transformers:对文档的常用操作,如:split, filter, translate, extract metadata, etcText Embedding Models:文本向量化表原创 2024-06-04 15:43:42 · 452 阅读 · 0 评论 -
Assistants API能力
界面不可定制,不能集成进自己的产品只有 ChatGPT Plus/Team/Enterprise 用户才能访问未来开发者可以根据使用量获得报酬,北美先开始承诺会推出 Team/Enterprise 版的组织内部专属 GPTs定制界面,或和自己的产品集成需要传大量文件服务国外用户,或国内 B 端客户数据保密性要求不高不差钱需要极致调优追求性价比服务国外用户,或国内 B 端客户数据保密性要求不高服务国内用户数据保密性要求高压缩长期成本需要极致调优。原创 2024-05-16 21:03:15 · 855 阅读 · 0 评论 -
Python 中的分步机器学习
在此步骤中,我们将通过几种不同的方式查看数据:1 数据集的维度。2 查看数据本身。3 所有属性的统计摘要。4 按类变量对数据进行细分。原创 2024-05-15 14:17:26 · 874 阅读 · 0 评论 -
python机器学习随机数生成器
本教程分为5部分;他们是:1.机器学习中的随机性2.伪随机数生成器3.何时为随机数生成器播种Seed4.如何控制随机性5.常见问题。原创 2024-05-15 09:58:09 · 463 阅读 · 1 评论 -
K折交叉验证
本教程分为5部分;他们是:1.k 折交叉验证2.k的配置3.工作示例4.交叉验证API5.交叉验证的变化。原创 2024-05-15 09:06:33 · 515 阅读 · 0 评论 -
机器学习数据表示为阵列
了解了如何使用 Python 访问和重塑 NumPy 数组中的数据。1.如何将列表数据转换为 NumPy 数组2.如何使用 Pythonic 索引和切片访问数据。3.如何调整数据大小以满足某些机器学习 API 的期望。原创 2024-05-15 06:21:20 · 656 阅读 · 1 评论 -
如何在Python中加载机器学习数据
在开始机器学习项目之前,您必须能够加载数据。机器学习数据最常见的格式是CSV文件。在Python中加载CSV文件的方法有很多。原创 2024-05-14 22:17:38 · 387 阅读 · 0 评论 -
用 Python 从头开始编写线性回归
对所有点的偏导数求和,再用设置的学习率来更新m和b,m和b的偏导数将为我们提供一个方向,我这里把损失函数的梯度理解为一个总向量,m和b的偏导数是梯度的两个分量。error,m,b构成一个三维图,执行梯度下降来获得最小点。一旦我们计算出误差,梯度意味着斜率的起点,就像一个指南针,总是指向碗底。接下来我们要最小化这个误差,这个误差基本上是一个信号,对我们来说是一个指南针,告诉我们要变小,这就是梯度下降的作用。找到最佳拟合线的方法是使用梯度下降,我们将随机绘制一条线,计算该线的误差。原创 2024-05-13 06:48:14 · 369 阅读 · 0 评论 -
从头理解transformer,注意力机制(下)
第一个是在解码器里面,这个注意力上会加一个掩码,就是因为在推理的时候,解码器部分是一个词一个词生成的这就代表了你生成到某个词的时候,这个词它只能受到它之前词的影响,不应该被未来生成的词所决定。维度它是每一个输出的维度,再乘以头的个数,然后最后得到这个结果以后,还会再和一个W矩阵相乘,再得出一个输出的词向量。多头注意力机制比卷积神经网络它有更大的可能性,它不再局限于卷积核,必须是围绕一个中心的,是可以中间可以跨越很多个头头,对很远的地方去产生联系,所以这个可能性就要更多,也可能会比卷积神经网络更灵活。原创 2024-05-12 10:09:29 · 1267 阅读 · 0 评论 -
从头理解transformer,注意力机制(上)
Q和K是得到了这一组词向量自己和自己之间的相互关系,再用这个相互关系来修正词向量,让词向量的每一个维度都能得到修正,和V相比,这里修正之后得到的词向量,都会根据上下文进行修正,这些词向量,除了词典里那个客观的语义外,还会根据上下文对语义本身进行一些校准而以上也就为一句话一段话多个词向量叠在一起这些内容增加了主观性,让你说的话和我说的话可以表达不同意思。原创 2024-05-10 21:57:50 · 1107 阅读 · 0 评论 -
神经网络与空间变换关系
不同是 神经网络的一层运算不只有矩阵乘法,还会有一个加法。以及 进行完线性计算后,还要经过非线性的激活函数。,隐藏层中神经元的个数就是变换后空间的维度,代表可以升维也可以降维。2. 加上偏置系数b,相当于对空间向量进行了一个平移操作。隐藏层虽然有了更深的层,但是神经元的个数却在减少。隐藏层越深,抽象程度越高。原创 2024-05-10 16:23:05 · 273 阅读 · 0 评论 -
矩阵和空间变换理解
把向量和矩阵相乘看作是,是其中一种看法代数角度:向量的一行和矩阵的一列逐项相乘再相加等于新向量的一项w代表原来坐标轴和新坐标轴之间的变换关系,而a和b体现的是原来向量的关系向量和坐标系关系是相对的。原创 2024-05-10 15:58:01 · 435 阅读 · 0 评论 -
深入理解多层感知机MLP
前向传播是神经网络计算和输出预测的过程。它从输入层开始,通过隐藏层(如果有的话),最终到达输出层。在每一层,每个神经元接收来自前一层的输入,这些输入根据前一层的输出和相应的权重进行加权求和,加上一个偏置项,然后通过激活函数处理以产生这一层的输出。原创 2024-04-30 17:08:48 · 751 阅读 · 0 评论 -
RAG系统进阶
离线步骤:文档加载文档切分向量化灌入向量数据库在线步骤:获得用户问题用户问题向量化检索向量数据库将检索结果和用户问题填入 Prompt 模版用最终获得的 Prompt 调用 LLM由 LLM 生成回复。原创 2024-05-08 10:54:48 · 1042 阅读 · 0 评论 -
rag-embeddings基础流程
LLM 的知识不是实时的LLM 可能不知道你私有的领域/业务知识。原创 2024-05-07 22:21:58 · 1052 阅读 · 0 评论 -
openai funciton calling使用
在 API 调用中,您可以描述函数,并让模型智能地选择输出包含调用一个或多个函数的参数的 JSON 对象。Chat Completions API不会调用该函数;相反,模型会生成 JSON,您可以使用它来调用代码中的函数。本指南重点介绍使用聊天完成 API 进行函数调用,有关助手 API 中函数调用的详细信息,请参阅助手工具页面。原创 2024-05-05 18:44:21 · 965 阅读 · 0 评论 -
SVM直观理解
给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。为了找到最大间隔超平面,我们可以先选择分离两类数据的两个平行超平面,使得它们之间的距离尽可能大。当训练数据线性可分时,通过硬间隔(hard margin,什么是硬、软间隔下面会讲)最大化可以学习得到一个线性分类器,即硬间隔SVM,如上图的的H3。原创 2024-05-04 10:56:00 · 1228 阅读 · 1 评论 -
openai文本生成
有一个与使用语言模型相关的整个领域,被称为“提示工程”,但随着该领域的发展,其范围已经超出了仅仅将提示工程设计为使用模型查询作为组件的工程系统的范围。这些模型的输入也称为“提示”。但请注意,对于某些模型,输入中的代币与输出中的代币的每个代币的价格是不同的(有关更多信息,请参阅定价。但请注意,系统消息是可选的,没有系统消息的模型行为可能类似于使用通用消息,例如“你是一个有用的助手”。等聊天模型使用令牌的方式与完成 API 中可用的模型相同,但由于它们基于消息的格式,因此更难以计算有多少令牌将被对话使用。原创 2024-05-03 00:13:41 · 637 阅读 · 1 评论 -
python面向对象编程
可以使用class关键字加上类名来定义类,通过缩进我们可以确定类的代码块,就如同定义函数那样。写在类里面的函数我们通常称之为方法,方法就是对象的行为,也就是对象可以接收的消息。方法的第一个参数通常都是self它代表了接收这个消息的对象本身。print(f'学生正在学习class Student : def study(self , course_name) : print(f'学生正在学习 {course_name } .') def play(self) : print(f'学生正在玩游戏.')原创 2024-05-01 09:34:18 · 976 阅读 · 0 评论 -
python常用库函数
key } is {value } ")key } is {value } ")key } is {value } ")key } is {value } ")使用可以提供一种函数式的方法来进行加法运算,这使得在需要将运算符作为函数传递或者处理的编程风格中非常方便和有效。这种方式简化了代码,特别是在涉及到高阶函数或复杂表达式的情况下。原创 2024-04-28 16:12:03 · 1059 阅读 · 0 评论 -
Python重点数据结构基本用法
在Python中,要构造分支结构可以使用、和关键字。在Python中构造循环结构有两种做法,一种是循环,另一种是循环。在Python中, 函数是一个非常实用的工具,主要用于生成一个不可变的数字序列。它通常用在循环(如 循环)中,以控制循环的次数。下面详细介绍 函数的用法和一些示例。 函数可以有以下几种形式的参数:使用一个参数:使用两个参数:使用三个参数(正步长):使用三个参数(负步长):注意事项 生成的是一个 对象,而不是列表。这意味着它在任何时间点只保存起始点、终点和步长原创 2024-04-24 18:53:02 · 1085 阅读 · 1 评论 -
prompt提示工程
提示工程也叫「指令工程」。Prompt 就是你发给大模型的指令,比如「讲个笑话」、「用 Python 编个贪吃蛇游戏」、「给男/女朋友写封情书」等貌似简单,但意义非凡「Prompt」 是 AGI 时代的「编程语言」「Prompt 工程」是 AGI 时代的「软件工程」「提示工程师」是 AGI 时代的「程序员」学会提示工程,就像学用鼠标、键盘一样,是 AGI 时代的基本技能提示工程「门槛低,天花板高」,所以有人戏称 prompt 为「咒语」原创 2024-04-21 10:24:18 · 2242 阅读 · 1 评论 -
大模型应用开发基础
越向下层,重要性越高,从业人数越少。原创 2024-04-20 18:00:10 · 314 阅读 · 0 评论 -
Adam和SGD优化算法比较
Adam和SGD(随机梯度下降)是两种广泛使用的优化算法,它们在深度学习模型训练中有不同的特性和表现。原创 2024-04-02 19:33:01 · 2208 阅读 · 0 评论 -
deeplearning with pytorch (五)
方法在PyTorch中用于重塑张量。这里它被用来将单个样本的张量重塑成模型所期望的输入形状。原创 2024-03-09 16:26:52 · 475 阅读 · 0 评论 -
deeplearning with pytorch (四)
在神经网络中,使用激活函数(如ReLU)是为了引入非线性,使得网络能够学习和模拟复杂的函数映射。ReLU(Rectified Linear Unit)激活函数因其简单性和效率而广泛使用,特别是在隐藏层中。原创 2024-03-07 22:44:28 · 393 阅读 · 0 评论 -
deeplearning with pytorch (三)
mnist数据集。原创 2024-03-05 21:17:34 · 411 阅读 · 0 评论 -
deep learning with pytorch(一)
因为如果不清零,梯度会累加到已有的梯度上,这是PyTorch的设计决策,目的是为了处理像RNN这样的网络结构,它们在一个循环中多次计算梯度。在神经网络中,损失函数衡量的是模型输出与真实标签之间的差异,通过反向传播算法,可以计算出损失函数关于模型各个参数的梯度。梯度指示了损失函数增长最快的方向,因此通过向相反方向调整参数,模型的预测误差会逐渐减小。: 反向传播是一种有效计算梯度的算法,它首先计算输出层的梯度,然后逆向逐层传播至输入层。)时,会累计梯度,而不是替换掉当前的梯度值。原创 2024-03-03 19:15:30 · 1054 阅读 · 0 评论 -
deeplearning with pytorch(二)
【代码】deeplearning with pytorch(二)原创 2024-03-04 22:36:34 · 536 阅读 · 0 评论