- 博客(377)
- 收藏
- 关注
原创 大模型-模型架构-长上下文模型
1B长文本数据量+百部训练=7B或13B的LLaMA,上下文窗口拓展到100K。采用受限的注意力机制来调整原始的上下文窗口。基于RoPE进行改进。
2024-09-19 18:24:18 166
原创 大模型-模型架构-主流架构
特点编码器端使用双向自注意力机制对输入信息进行编码处理,在解码器端则使用了交叉注意力与掩码自注意力机制,进而通过自回归的方式进行生成当前使用较少。
2024-09-19 16:09:18 101
原创 大模型-模型架构-详细配置
归一化* 注意力机制* 激活函数* 位置编码现有大模型中,Post-Norm很少被单独使用,通常与其他策略相结合使用,例如GLM-130B是Post-Norm与Deep-Norm一起使用。
2024-09-13 19:39:23 982
原创 大模型-模型架构-transformer模型介绍
当前主流大模型都是基于transformer进行设计的transformer模型是有多层多头自注意力模块堆叠而成的神经网络模型transformer模型由解码器与编码器构成,二者可独立使用,例如BERT是基于编码器架构的模型,GPT是基于解码器架构的模型与早期模型相比,大模型使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对transformer本身架构和配置改变不大编码器与解码器都有生成内容的能力输出数据…(与前面相同,多层叠加)
2024-09-11 10:47:31 406
原创 项目管理-理想落地过程中,如何精准管控要做的所有事情
Epic定义:描述理想,可以是一个形而上的,也可以是一个具体事物,比如要做一个商业化服务平台、做成一件特别伟大困难的事情,都是可以的内容:可以将理想的要求进行细化,保证执行时有更准确的验收标准Feature定义:描述理想所需要具备的要素、特征内容:将要素、特征细化,提供严格的验收标准,比如定义商业化服务平台的用户管理、计费等大功能模块Story定义:描述实际的某个具体需求,比如用户管理模块里面需要有用户名修改的功能内容:功能描述、验收标准、上线时间等Task。
2024-09-04 13:58:45 228
原创 大模型预训练-数据准备
名词释义预训练:大模型训练的第一个阶段数据集污染:预训练数据中包含测试数据中的部分或全部数据来源通用数据网页书籍专用数据多语文本科学论文代码数据预处理质量过滤基于启发式规则规则建议基于语种过滤(过滤不支持的语种数据)基于简单统计指标过滤(针对论坛数据,过滤掉任何点赞数少于 3 的用户评论)基于关键词过滤(针对网页数据,过滤掉 HTML 标签)优缺点优点:清晰效率高缺点:质量差基于分类器规则实际方式:使用一个训练好的文本分类
2024-07-09 20:16:40 465
原创 大模型基础
大模型与小模型共同使用相同的神经网络模型结构与预训练方法,大模型展现出来的各种能力的指数级增长,其最大的原因就是因为参数规模拓展导致的,所以要探索如何做好规模拓展。
2024-07-03 21:18:12 472
原创 大模型-大模型评测
1、参考文章:https://www.linkresearcher.com/information/f4a3b0e0-9d14-45cc-9f8a-acac0ce6addd。
2024-05-29 09:57:18 180
原创 Android-虚拟定位
链接: https://pan.baidu.com/s/1JyoGkxB97YyZSDH_yAzKPQ?pwd=9cbw 提取码: 9cbw 复制这段内容后打开百度网盘手机App,操作更方便哦。使用虚拟定位软件模拟位置即可。
2024-05-24 13:34:00 275
原创 mac使用技巧
应用问题g hub(罗技出品)卡在"正在初始化"问题问题原因:可能是已经安装过导致解决方法:删除电脑上lghub相关的文件,需要从Macintosh HD目录开始搜索文件已损坏,***参考文章iphone 链接 mac 闪断问题参考文章系统技巧横向滑动技巧shift+鼠标滚动
2024-05-23 11:55:06 162
原创 验证二叉搜索树
给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。输入:root = [5,1,4,null,null,3,6]解释:根节点的值是 5 ,但是右子节点的值是 4。所有左子树和右子树自身必须也是二叉搜索树。节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。输入:root = [2,1,3]
2024-05-23 11:43:54 225
原创 链表的中间结点
ans.val = 3, ans.next.val = 4, ans.next.next.val = 5, 以及 ans.next.next.next = NULL.(测评系统对该结点序列化表述是 [3,4,5])。由于该列表有两个中间结点,值分别为 3 和 4,我们返回第二个结点。输出:此列表中的结点 3 (序列化形式:[3,4,5])输出:此列表中的结点 4 (序列化形式:[4,5,6])如果有两个中间结点,则返回第二个中间结点。输入:[1,2,3,4,5,6]输入:[1,2,3,4,5]
2024-05-23 11:43:15 159
原创 重新格式化字符串
解释:“0a1b2c” 中任意两个相邻字符的类型都不同。“a0b1c2”, “0a1b2c”, “0c2a1b” 也是满足题目要求的答案。请你将该字符串重新格式化,使得任意两个相邻字符的类型都不同。也就是说,字母后面应该跟着数字,而数字后面应该跟着字母。请你返回 重新格式化后 的字符串;如果无法按要求重新格式化,则返回一个 空字符串。给你一个混合了数字和字母的字符串 s,其中的字母均为小写英文字母。输入:s = “a0b1c2”输出:“0a1b2c”
2024-05-21 15:00:59 255
原创 第一个错误的版本
你可以通过调用 bool isBadVersion(version) 接口来判断版本号 version 是否在单元测试中出错。不幸的是,你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的,所以错误的版本之后的所有版本都是错的。假设你有 n 个版本 [1, 2, …, n],你想找出导致之后所有版本出错的第一个错误的版本。调用 isBadVersion(4) -> true。输入:n = 5, bad = 4。输入:n = 1, bad = 1。所以,4 是第一个错误的版本。
2024-05-21 15:00:29 403
原创 环形链表 II
如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。为了表示给定链表中的环,评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始)。如果 pos 是 -1,则在该链表中没有环。给定一个链表的头节点 head ,返回链表开始入环的第一个节点。输入:head = [3,2,0,-4], pos = 1。输入:head = [1,2], pos = 0。解释:链表中有一个环,其尾部连接到第二个节点。解释:链表中有一个环,其尾部连接到第一个节点。
2024-05-21 14:59:58 218
原创 算法-爬楼梯
每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢?需要 n 阶你才能到达楼顶。解释:有两种方法可以爬到楼顶。解释:有三种方法可以爬到楼顶。
2024-05-21 14:59:18 467
原创 最长回文串
给定一个包含大写字母和小写字母的字符串 s ,返回 通过这些字母构造成的 最长的回文串。在构造过程中,请注意 区分大小写。比如 “Aa” 不能当做一个回文字符串。我们可以构造的最长的回文串是"dccaccd", 它的长度是 7。输入:s = “abccccdd”输入:s = “a”
2024-05-21 14:58:48 328
原创 斐波那契数
斐波那契数 (通常用 F(n) 表示)形成的序列称为 斐波那契数列。该数列由 0 和 1 开始,后面的每一项数字都是前面两项数字的和。F(n) = F(n - 1) + F(n - 2),其中 n > 1。解释:F(2) = F(1) + F(0) = 1 + 0 = 1。解释:F(3) = F(2) + F(1) = 1 + 1 = 2。解释:F(4) = F(3) + F(2) = 2 + 1 = 3。给定 n ,请计算 F(n)。
2024-05-21 14:58:18 212
原创 算法-岛屿数量
给你一个由 ‘1’(陆地)和 ‘0’(水)组成的的二维网格,请你计算网格中岛屿的数量。岛屿总是被水包围,并且每座岛屿只能由水平方向和/或竖直方向上相邻的陆地连接形成。此外,你可以假设该网格的四条边均被水包围。输入:grid = [输入:grid = [
2024-05-21 14:57:47 331
原创 寻找数组的中心下标
左侧数之和 sum = nums[0] + nums[1] + nums[2] = 1 + 7 + 3 = 11 ,右侧数之和 sum = nums[4] + nums[5] = 5 + 6 = 11 ,二者相等。右侧数之和 sum = nums[1] + nums[2] = 1 + -1 = 0。数组 中心下标 是数组的一个下标,其左侧所有元素相加的和等于右侧所有元素相加的和。输入:nums = [1, 7, 3, 6, 5, 6]输入:nums = [2, 1, -1]
2024-05-21 14:57:16 110
原创 算饭-图像渲染
输入: image = [[1,1,1],[1,1,0],[1,0,1]],sr = 1, sc = 1, newColor = 2。输入: image = [[0,0,0],[0,0,0]], sr = 0, sc = 0, newColor = 2。解析: 在图像的正中间,(坐标(sr,sc)=(1,1)),在路径上所有符合条件的像素点的颜色都被更改成2。输出: [[2,2,2],[2,2,0],[2,0,1]]输出: [[2,2,2],[2,2,2]]最后返回 经过上色渲染后的图像。
2024-05-21 14:24:19 216
原创 同构字符串
每个出现的字符都应当映射到另一个字符,同时不改变字符的顺序。不同字符不能映射到同一个字符上,相同字符只能映射到同一个字符上,字符可以映射到自己本身。如果 s 中的字符可以按某种映射关系替换得到 t ,那么这两个字符串是同构的。输入:s = “paper”, t = “title”给定两个字符串 s 和 t ,判断它们是否是同构的。输入:s = “egg”, t = “add”输入:s = “foo”, t = “bar”
2024-05-21 14:23:48 122
原创 判断子序列
字符串的一个子序列是原始字符串删除一些(也可以不删除)字符而不改变剩余字符相对位置形成的新字符串。(例如,"ace"是"abcde"的一个子序列,而"aec"不是)。如果有大量输入的 S,称作 S1, S2, …, Sk 其中 k >= 10亿,你需要依次检查它们是否为 T 的子序列。给定字符串 s 和 t ,判断 s 是否为 t 的子序列。输入:s = “abc”, t = “ahbgdc”输入:s = “axc”, t = “ahbgdc”
2024-05-21 14:20:26 143
原创 二叉树的层序遍历
给你二叉树的根节点 root ,返回其节点值的 层序遍历。(即逐层地,从左到右访问所有节点)。输入:root = [3,9,20,null,null,15,7]输出:[[3],[9,20],[15,7]]输入:root = [1]输入:root = []
2024-05-21 14:19:55 169
原创 二叉搜索树的最近公共祖先
输入: root = [6,2,8,0,4,7,9,null,null,3,5], p = 2, q = 8。输入: root = [6,2,8,0,4,7,9,null,null,3,5], p = 2, q = 4。例如,给定如下二叉搜索树: root = [6,2,8,0,4,7,9,null,null,3,5]解释: 节点 2 和节点 4 的最近公共祖先是 2, 因为根据定义最近公共祖先节点可以为节点本身。解释: 节点 2 和节点 8 的最近公共祖先是 6。
2024-05-21 14:18:56 192
原创 算法-二分查找
给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。输入: nums = [-1,0,3,5,9,12], target = 9。输入: nums = [-1,0,3,5,9,12], target = 2。解释: 9 出现在 nums 中并且下标为 4。解释: 2 不存在 nums 中因此返回 -1。
2024-05-20 13:00:38 293
原创 买卖股票的最佳时机
解释:在第 2 天(股票价格 = 1)的时候买入,在第 5 天(股票价格 = 6)的时候卖出,最大利润 = 6-1 = 5。你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。注意利润不能是 7-1 = 6, 因为卖出价格需要大于买入价格;解释:在这种情况下, 没有交易完成, 所以最大利润为 0。输入:prices = [7,6,4,3,1]输入:[7,1,5,3,6,4]
2024-05-20 12:09:02 314
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人