- 博客(113)
- 收藏
- 关注
原创 论文精读--InstructGPT
增大语言模型的规模并不一定能使其更好地遵循用户的意图。例如,大型语言模型可能生成不真实、有毒或对用户毫无帮助的输出。换句话说,这些模型与用户并不一致。在这篇论文中,我们展示了一种通过使用人类反馈进行微调的方式来使语言模型与用户意图保持一致的方法,这适用于广泛的任务。从标注者编写的提示和通过 OpenAI API 提交的提示开始,我们收集了标注者展示所需模型行为的演示数据集,并使用这些数据集通过监督学习来微调 GPT-3。
2024-05-23 19:35:01 330
原创 论文阅读--Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
将语义不相关的跨模态信息通过对比学习组合起来。
2024-05-17 14:37:03 554
原创 论文阅读--Knowledge distillation via softmax regression representation learning
这篇论文解决了通过知识蒸馏进行模型压缩的问题。我们主张一种优化学生网络倒数第二层输出特征的方法,因此与表示学习直接相关。为此,我们首先提出了一种直接特征匹配方法,重点优化学生网络的倒数第二层。其次,更重要的是,因为特征匹配没有考虑到手头的分类问题,我们提出了第二种方法,将表示学习和分类解耦,并利用教师的预训练分类器来训练学生的倒数第二层特征。特别是,对于相同的输入图像,我们希望通过教师的分类器传递时,教师和学生的特征产生相同的输出,这通过简单的 L2 损失实现。
2024-04-29 23:20:42 1352
原创 论文阅读--Training data-efficient image transformers & distillation through attention
教师的预测和真实标签重要性一样。
2024-04-29 21:42:09 420
原创 论文阅读--Search to Distill
标准的知识蒸馏(KD)方法将笨重的教师模型的知识蒸馏到具有预定义架构的学生模型的参数中。然而,神经网络的知识,即网络在给定输入条件下的输出分布,不仅取决于其参数,还取决于其架构。因此,对于KD的一种更广义的方法是将教师的知识蒸馏到学生的参数和架构中。为了实现这一点,我们提出了一种新的基于架构的知识蒸馏(AKD)方法,该方法找到最适合蒸馏给定教师模型的学生模型(对于教师来说是珍珠)。具体来说,我们利用带有我们的KD引导奖励的神经架构搜索(NAS)来搜索最适合给定教师模型的学生架构。
2024-04-28 23:34:34 1084
原创 论文阅读--A Comprehensive Overhaul of Feature Distillation Heo
第一个是经过ReLU激活之后的特征响应的大小第二个是每个神经元的激活状态。提出了一个margin ReLU激活函数,并且利用一个局部的L2正则化进行距离度量,以此来跳过对非必要信息的蒸馏。
2024-04-28 17:10:38 949
原创 蝴蝶书--ChatGPT使用指南——相似度匹配
文本token化后需要一种方式来表示这些token,one-hot方法太生硬了,需要一个稠密表示通过调用大模型的embedding API进行处理,在本人用过的里面,gpt支持传输多段文字,而ZHIPUAI一次只能传一个在自然语言处理领域,我们一般使用直接喂给大模型。
2024-04-25 20:34:24 329
原创 葡萄书--图注意力网络
在异质图中会有非常复杂的节点之间的联系,但是这种联系并不全是有效的,所以通过定义元路径来定义一些有意义的连接方式节点 i 在通过元路径生成的图中的邻居就是依据元路径定义的邻居如图元路径可定义为MAM和MDM,便得到了依据元路径定义的邻居d。
2024-04-20 10:18:36 783
原创 论文精读--KDGAN
GAN训练太慢,所以向分类器引入KD方法,降低梯度的方差,加快训练相较于传统KD,GAN使得分类器能学到真实的数据分布为了加快KDGAN的训练,作者一方面经验性地认为分类器接收到的梯度中来自teacher的梯度的方差会小于discriminator的梯度的方差,因此加权平均后小于原来只用GAN训练的梯度方差,从而能够快速收敛。另一方面,由于分类器和teacher生成的离散样本是不可微的,因此作者使用Gumbel-Max技巧将离散样本的分布转化为连续的分布。从而能够传递梯度值。
2024-04-19 21:15:42 739
原创 论文精读--Learning Efficient Object Detection Models with Knowledge Distillation
尽管基于卷积神经网络(CNN)的目标检测器在准确性方面取得了显著的提高,但它们往往需要禁止的运行时间来处理图像以用于实时应用。最先进的模型通常使用非常深层的网络和大量的浮点运算。诸如模型压缩之类的工作学习具有更少参数的紧凑模型,但准确性大大降低。在本工作中,我们提出了一种新的框架,使用知识蒸馏和提示学习来学习紧凑且快速的目标检测网络,并改善准确性。尽管知识蒸馏在简单分类设置中表现出了出色的改进,但检测的复杂性提出了新的挑战,例如回归、区域提议和较少数量的标签。
2024-04-19 17:43:58 1242 1
原创 论文精读--Pay More Attention To Attention
这里的attention不是transformer那个,作者的attention是指attention map展示了哪些输入对输出的影响更大,理所当然feature map里值大的对输出影响大,所以这个就是模型对这块输入位置的attention。
2024-04-18 20:54:27 851
原创 葡萄书--深度学习基础
(translation invariance):不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”。图像的平移不变性使我们以相同的方式处理局部图像,而不在乎它的位置。(locality):神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这就是“局部性”原则。最终,可以聚合这些局部特征,以在整个图像级别进行预测。局部性意味着计算相应的隐藏表示只需一小部分局部图像像素。
2024-04-17 09:35:10 389
原创 葡萄书--图理论基础
G={V,E}节点和边的信息可以是的,类别型数据的取值只能是哪一类别。一般称类别型的信息为。节点和边的信息可以是的,数值型数据的取值范围为实数。一般称数值型的信息为。在图的计算任务中,我们认为,节点含有信息(至少含有节点的度的信息),边含有信息。图的边上的权重为 1 时,它是一个无权图,否则为有权图。
2024-04-16 07:45:22 282
原创 论文精读--Segment beyond View
通过音频信息补充超出视野范围的信息,从而实现定位分割教师模型提供全局信息给学生模型,学生模型做任务。
2024-04-09 00:07:06 579
原创 综述阅读--A survey of sound source localization with deep learning methods
SSL是预测麦克风阵列相对于某个任意参考位置的的方位角与俯仰角。
2024-04-07 09:36:31 684
原创 动手机器学习支持向量机+习题
非参数化模型,当数据集规模增大时,其参数量也相应变多希望从这无数个可以分隔两个点集的超平面中,挑选出与任意一点间隔(margin)的最小值最大的平面。
2024-04-01 21:40:34 583
原创 MetaGPT部分源码解读--Memory
属性是一个列表,用于存储消息对象。每个消息对象都被标记为类型,这表示它们可以序列化为任何类型的消息。默认情况下,它被初始化为空列表[]。index属性是一个字典,用于创建消息的索引。键是字符串类型,对应着消息的某个属性(可能是消息的原因)。值是一个列表,存储与该属性相匹配的消息对象。它使用了来提供一个默认工厂函数,以便在索引中添加新键时自动创建一个空列表。默认情况下,它被初始化为一个空字典。ignore_id属性是一个布尔值,用于控制是否忽略消息的 ID。默认情况下,它被设置为False。
2024-04-01 17:45:06 844
原创 MetaGPT部分源码解读--Role
BY_ORDER通过定义values()方法,可以轻松地获取枚举类中所有常量的值。这个方法会返回一个列表,包含枚举类中所有常量的字符串值。
2024-03-31 17:12:00 1178
原创 论文精读--AlphaFold2
蛋白质是氨基酸序列,长串的序列会卷在一起,氨基酸之间相互吸引形成稳定的、独特的3D结构,3D结构的形状决定了蛋白质的功能目的:给氨基酸序列,预测3D结构Alphafold1的结果不够精确,偏差不在一个原子大小的级别之内,而2达到了原子级别的精度。
2024-03-30 23:37:12 1028
原创 动手学机器学习逻辑斯谛回归+习题
现需要用线性模型做分类问题,简单的阶跃函数在阈值处不可导,可导处导数均为0,性质不好所以把0,1问题转化成P(y=0|x),P(y=1|x)的问题,这样就把离散的分类任务变成了求概率分布的回归任务,概率分布要求在(0,1)之间,且需要光滑连续的曲线才会有较好的梯度,所以定义逻辑斯谛函数。
2024-03-30 18:13:49 1438
原创 动手学机器学习机器学习的基本思想+习题
后面这项叫作正则化项,可以对需要求出的参数θ的大小进行抑制加入L2正则化项后,线性规划问题的解析解前面不再是X.T与X的乘积,加上λI后,从半正定变成了正定矩阵,从而确保了矩阵有逆我们有时希望得到的模型参数更稀疏,即参数中的数量尽可能多。由于L0范数衡量的是向量中非零元素的个数,因此,我们可以选用L0范数来进行正则化,最小化范数就会使向量中的非零元素尽可能少。然而,L0范数中含有示性函数II,并不可导,无论是解析求解还是梯度下降都比较困难。因此,我们常用L1范数代替L0范数作为约束。
2024-03-30 13:27:49 1106
原创 动手学机器学习K近邻算法+习题
表示使用空格作为分隔符data = np.reshape(np.array(m_x[0], dtype=int), [28, 28])获取一个图片的像素后变成28x28idx = np.random.permutation(np.arange(len(m_x)))获取索引后,打乱索引argsort得到排序后对应的下标,截断k个返回用下标到self.y_train中提取具体label并计数,然后argmax返回最大值的下标,在这里是标签:表示选择标签为0的样本点的第一个特征(x轴坐标)
2024-03-29 16:19:22 1064
原创 动手学机器学习初探机器学习+习题
非参数化模型(nonparametric model):与参数化模型相反,非参数化模型并非由一个具体的参数向量来确定,其训练的算法也不是更新模型的参数,而是由具体的计算规则直接在模型空间中寻找模型实例。,比如假设空间上相邻的样本有相似的特征。归纳偏置可以让模型在缺乏对样本的知识时也能给出预测,对某类数据的归纳偏置更强的模型能够更快地学到其中的模式。让不同的机器学习模型的给定任务下达到相同的泛化能力,需要的训练数据量往往也是不同的。机器学习的底层是数理统计,其基本原理是,相似的数据拥有相似的标签。
2024-03-27 15:39:15 526 1
原创 Milvus部分源码阅读
密封集合中的所有段(segment),这意味着在flush之后插入的数据将会被写入新的段中在Milvus中,每当向集合中插入数据时,这些数据首先被写入到内存中的段中。当这些段积累到一定量或超过一定时间没有被写入磁盘时,它们就会被自动或手动flush到磁盘上,以确保数据不会因为系统故障而丢失,并且可以被持久化。
2024-03-16 20:07:50 676
原创 OpenAI Client
确保URL的路径以/结尾处理API响应的状态码,4xx 或 5xx 时被抛出当响应体没有被完全读取,将 body 设置为 None,并将错误消息设置为响应状态码。如果响应体未被关闭,我们尝试从中提取错误文本提供一个统一的错误处理方式,无论响应体是文本、JSON 还是其他格式,都能够正确地创建一个 APIStatusError 实例,以便于在应用程序中进行错误处理计算HTTP请求剩余的重试次数。
2024-03-16 16:05:45 1101
原创 AgentScope Learning Feedback
│ | ├── rpc # Rpc模块,用于智能体分布式部署。│ | ├── message.py # 智能体之间消息传递的定义和实现。│ | ├── agents # 与智能体相关的核心组件和实现。│ | ├── models # 用于集成不同模型API的接口。│ | ├── memory # 智能体记忆相关的结构。
2024-03-12 23:55:35 1120
原创 MetaGPT部分源码解读--Action
这意味着,如果你有一个父类和一个继承自该父类的子类,当你将子类的实例序列化时,得到的字典将只包含父类的字段,而不会包含子类特有的字段。在定义子类时被自动调用,确保在创建子类时子类被正确地注册到__subclasses_map__中,从而在__deserialize_with_real_type__能找到正确的与全限定类名字、对应的类类型。在序列化过程中被调用,目的是在序列化过程中添加额外的类型信息,以便在反序列化时能够恢复正确的子类类型。确保在模型实例化后,能够正确地设置上下文、配置和大型语言模型。
2024-03-10 21:08:34 857 1
原创 论文精读--VAE
我们如何在有连续潜在变量和难以处理的后续分布的定向概率模型中进行有效的推理和学习?我们引入了一种随机变分推理和学习算法,该算法可扩展到大型数据集,并且在一些温和的可微分性条件下,甚至在难以处理的情况下也能工作。我们的贡献有两个方面。首先,我们展示了对变分下界的重新参数化产生了一个下界估计器,该估计器可以使用标准的随机梯度方法直接优化。
2024-02-28 18:41:48 945
原创 论文精读--DALL·E 2
对比学习模型,如CLIP,已被证明能够学习到同时捕获图像的语义和风格的鲁棒表示。为了利用这些表示进行图像生成,我们提出了一个两阶段模型:一个先验网络,它根据文本描述生成CLIP图像嵌入,以及一个解码器,它根据图像嵌入生成图像。我们展示,明确地生成图像表示可以改善图像多样性,同时在照片真实性和描述相似性上的损失最小。我们的解码器,在图像表示的条件下,还可以生成图像的变化,同时保留其语义和风格,变化那些在图像表示中不存在的非关键细节。此外,CLIP的联合嵌入空间使语言引导的图像操作能够在零样本的情况下进行。
2024-02-28 13:56:31 1290
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人