自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(143)
  • 收藏
  • 关注

原创 LeetCode刷题笔记第2769题:找到最大的可达成数字

由于只进行了一次算术计算,且没有使用额外存储空间,因此时间复杂度和空间复杂度均为O(1)。由上述两点来看,num与x之间的关系为:x = num + t + t。

2024-05-21 09:09:02 162

原创 LeetCode刷题笔记第1859题:将句子排序

通过空格切分句子为单词列表,根据最后每个单词的最后一个数字在新的列表中存入相对应的位置,返回按照新列表中的顺序拼接的句子。因为创建了一个新的列表,空间复杂度O(n)因为要遍历整个列表,时间复杂度O(n)

2024-05-17 11:08:15 234

原创 LeetCode刷题笔记第1800题:最大升序子数组和

遍历数组的同时记录当前最大升序子数组和,最终返回最大升序子数组和。因为要存储当前最大升序子数组和,空间复杂度为O(1)因为要遍历整个数组,时间复杂度为O(n)

2024-05-15 15:59:32 192

原创 LeetCode刷题笔记第1078题:Bigram分词

给出第一个词 first 和第二个词 second,考虑在某些文本 text 中可能以 “first second third” 形式出现的情况,其中 second 紧随 first 出现,third 紧随 second 出现。对于每种这样的情况,将第三个词 “third” 添加到答案中,并返回答案。

2024-05-14 10:52:12 177

原创 LeetCode刷题笔记第1480题:一维数组的动态和

给你一个数组 nums。数组「动态和」的计算公式为:runningSum[i] = sum(nums[0]…nums[i])。请返回 nums 的动态和。

2024-05-10 12:06:35 324

原创 LeetCode刷题笔记第258题:各位相加

给定一个非负整数num,反复将各个位上的数字相加,直到结果为一位数。返回这个结果。

2024-05-08 17:33:46 181

原创 LeetCode刷题笔记第217题:存在重复元素

给你一个整数数组nums。如果任一值在数组中出现至少两次,返回 true;如果数组中每个元素互不相同,返回 false。

2024-05-08 16:55:48 259

原创 LeetCode刷题笔记第190题:颠倒二进制位

颠倒输入的二进制数。

2024-05-04 10:40:20 223

原创 LeetCode刷题笔记第168题:Excel表列名称

给你一个整数 columnNumber ,返回它在 Excel 表中相对应的列名称。例如:A -> 1B -> 2C -> 3Z -> 26AA -> 27AB -> 28。

2024-05-02 12:11:01 105

原创 LeetCode刷题笔记第145题:二叉树的后序遍历

给定一棵二叉树的根节点 root ,返回其节点值的后序遍历。

2024-05-01 12:12:14 266 1

原创 LeetCode刷题笔记第104题:二叉树的最大深度

给定一个二叉树,获得二叉树的最大深度。

2024-04-23 12:08:12 161

原创 LeetCode刷题笔记第144题:二叉树的前序遍历

给你二叉树的根节点root ,返回它节点值的前序遍历。

2024-04-12 16:21:43 151

原创 LeetCode刷题笔记第746题:使用最小花费爬楼梯

花费每个楼梯的代价就能向上爬一个或两个楼梯,求最终登顶需要的最小代价。

2024-04-09 12:17:07 276

原创 大模型预训练数据工程

重复的数据在不同条件下具有的作用不同,不一定是好的,或者坏的作用。优质的重复数据某种程度上可以加强模型的相应能力。数据配比关注的是训练数据中的不同数据的类型数量,数据课程关注的是在训练大模型的过程中,不同类型数据训练的先后顺序。在获取数据的同时尽可能的保留与数据相关的元信息,这些元信息在后续模型训练中会发挥作用。不同的数据任务之间存在相互促进的作用,一个较好的数据训练顺序可以提升模型效果。可以使用Deita工具自动筛选高质量的数据,GitHub地址如下。大模型训练中,训练数据的配比会影响大模型的性能。

2024-03-03 15:01:56 571

原创 旋转位置编码原理及代码

旋转位置编码旋转位置编码的核心是找到对应的旋转矩阵LLaMA中旋转矩阵相关代码

2024-02-15 15:07:41 818 2

原创 RMSNorm原理及代码

代码来源于:https://github.com/huggingface/transformers/tree/main/src/transformers/models/llama/modeling_llama.py。在LLaMA中使用RMSNorm替代LayerNorm,因为RMSNorm相比LayerNorm,不需要计算样本与均值的差(减少了计算量,加快了训练速度)如下是LayerNorm与RMSNorm的公式。层归一化是对一个样本中的不同特征进行归一化。批量归一化是对一个批次内的数据进行归一化。

2024-02-14 22:48:57 692

原创 几种不同的self-attention

在进行大模型的训练和推理中会大量的使用self-attention,在显存中需要保存self-attention中的query、key和value矩阵。Multi-head attention中每个头都有对应的query、key和value矩阵,因此会占用大量显存。grouped-query attention通过分组的方式,同一个组内共用一个key和value矩阵,当分组数与头数相同时即为Multi-head attention,当分组数为1时则为Multi-query attention。

2024-02-13 23:07:17 394

原创 transformer_正余弦位置编码代码笔记

transformer输入的序列中,不同位置的相同词汇可能会表达不同的含义,通过考虑位置信息的不同来区分序列中不同位置的相同词汇。

2024-01-31 21:54:24 464

原创 transformer_多头注意力机制代码笔记

上述代码中初始化中定义了构建多头注意力机制代码的组件(结构),在forward的方法中将使用初始化中的组件构建多头注意力机制。从forward方法开始阅读,当使用到初始化方法中的代码时再进行阅读。以GPT-2中多头注意力机制代码为例。以下为对多头注意力机制代码做分步笔记。

2024-01-31 14:57:58 249

原创 Byte Pair Encoding(BPE)算法及代码笔记

本文以GPT-2中的BPE代码为例,主要记录了代码中Encoder里的bpe方法。

2024-01-28 22:37:13 687

原创 大模型学习笔记10——大模型法律与环境影响

在我们训练大型语言模型时,我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质,你必须诉诸公平使用(从每个人那里获得许可证将非常困难)。模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。在什么水平上进行调控(语言模型还是下游应用)是有意义的?这个领域正在迅速发展,需要深入的法律和人工智能专业知识才能做出明智的决定!

2024-01-23 11:15:26 432

原创 大模型学习笔记09——大模型的有害性

虚假信息需要满足以下条件:新颖(避免被基于哈希的内容审核系统检测),通顺(被目标受众易读),有说服力(被目标受众所信),并传达虚假信息战役的信息。当前的虚假信息创造过程既昂贵又慢(如俄罗斯需要懂英语的人)。未来,恶意行为者可能会更多地使用AI来进行虚假信息的创造(例如,普京在2017年曾表示:“人工智能是未来,不仅是俄罗斯的未来,也是全人类的未来”)。内容审查:与有害内容的问题在现实世界中的对应(独立于语言模型)。毒性是依赖于上下文的,需要考虑的是人而不仅仅是文本。

2024-01-23 10:51:28 451

原创 大模型实战作业05

大模型实战作业05

2024-01-22 21:13:04 375

原创 大模型学习笔记08——分布式训练

模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为内存墙的存在,单一设备的算力及容量,受限于物理定律,持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力,分布式训练势在必行。

2024-01-21 23:14:34 512

原创 大模型学习笔记07——大模型之Adaptation

学习内容地址:添加链接描述

2024-01-21 21:52:27 523

原创 大模型实战06——OpenCompass大模型评测

图片均为视频截图。

2024-01-20 16:34:26 458

原创 大模型学习笔记06——模型训练

三类语言模型的目标函数:笔记原始内容地址:添加链接描述

2024-01-20 10:39:13 476

原创 大模型学习笔记05——大模型的数据

Hugging Face发起的BigScience项目旨在收集一个大型多语种数据集并训练一个大型语言模型。BigScience的数据治理工作组正在开发一个框架,以负责任地策划高质量的数据源,而不是无差别地爬取网页。

2024-01-19 13:09:01 976

原创 大模型学习笔记04——新的模型架构

核心思想:创建一组专家,每个输入只激活一小部分专家。

2024-01-18 11:20:35 432

原创 大模型学习笔记03——模型架构

根据输入需求的语言描述(Prompt)生成符合需求的结果(completion)

2024-01-17 13:53:14 472

原创 大模型学习笔记02——大模型的能力

GPT-3的表现不稳定增加模型的大小和示例的数量都有助于提高性能对于模型表现的原因尚不清楚。

2024-01-16 11:44:17 439

原创 数据结构与算法笔记01——递归

以爬楼梯为例,每次只能爬一个台阶或两个台阶,爬上n个台阶有多少种爬法。上述方法存在多次函数调用及重复计算可以用一下的方式进行改进。

2024-01-15 11:27:30 452

原创 大模型实战作业04

大模型实战作业04

2024-01-14 23:42:11 362

原创 大模型实战05——LMDeploy大模型量化部署实践

笔记课程视频地址:https://www.bilibili.com/video/BV1iW4y1A77P/?

2024-01-14 21:39:18 475

原创 大模型学习读书笔记01——大模型基础

评判由一些单词排列组合而成的句子是否更像真正的、自然的句子。(通俗的说是否像人话)语言模型的经典定义是一种对词符(token)序列的概率分布。每个token在真实世界中都存在一定的概率,通过对一个句子中的所有token的联合概率来作为对一个句子优劣的评判。语言模型不仅可以评估语句,还可以依赖语言模型对已知文本或信息生成新的文本或信息。

2024-01-13 23:03:18 626

原创 大模型实战作业03

因为微调数据较少,没有显示出个人助手的名字。

2024-01-12 15:05:39 365

原创 大模型实战笔记04——XTuner 大模型单卡低成本微调实战

课程视频地址:https://www.bilibili.com/video/BV1yK4y1B75J/?

2024-01-11 16:56:58 475

原创 大模型实战作业02

有些问题在回答的时候可能出现乱码的情况,不清楚是模型的问题还是内部提示词的问题(后续有时间再看看)

2024-01-10 14:07:13 406

原创 大模型实战笔记03——基于InterLM和LangChain搭建知识库

详细步骤见:https://github.com/InternLM/tutorial/tree/main/langchain。

2024-01-10 10:38:58 492

原创 大模型实战作业01

实操中出现的问题。

2024-01-07 01:37:44 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除