- 博客(10)
- 资源 (3)
- 收藏
- 关注
原创 LLM长度外推研究1——外推结果及原因分析
近期,随着大模型(LLM)的兴起,关于它的长度外推性质,也受到了业界的关注。关于外推,有一个美好的愿景,即,我们总是希望用更短的文本来训练LLM,但希望在推理时,LLM仍然可以处理更长的文本。如果这一假设成立,那将使得训练成本大幅降低,美哉!然而,现实却很骨感。目前已知的良好属性的位置编码RoPE,也仅能达到10%-20%的外推长度(参考苏剑林老师的博客[1]中的论述)。在此,假设各位伙伴对于位置编码相关知识已经有了一定的基础,故不做详细阐释。
2023-08-28 22:08:52 1492 3
原创 Adam 优化器公式及工程代码pytorch
3.二阶矩,产生动态的学习率,自适应,按照逐维度调整,每个维度都对应一个学习率。2.包括偏置修正,修正了一阶矩估计和二阶矩估计。1.动量项:按指数加权,线性缩放。4.对超参数对选择比较鲁棒。学习率自适应对动量法。
2022-09-13 15:50:37 1096
原创 Linux常用命令
linux常用命令1.将文件内容清空echo ‘’->/var/log/mysql.log2. 查看安装包查找已安装的myslq 版本:#rpm -qa | grep mysql (注意大小写,如果mysql 不行就换MySQL)3. 查看安装路径whereis mysql4. 查看运行路径which mysql转发:yum工作原理及使用 yum工作原理及使用yum工作原理yum服务器yum服务器提供rpm包及其基本信息、依赖关系的下载yum客户端每次yum ins
2022-09-13 15:43:03 367
原创 牛顿法与Hessian矩阵正定
实际中,需要求出Hessian的逆矩阵,只有正定矩阵,才可以求出逆矩阵。正定矩阵:特征值全大于0;各阶主子式全大于0.
2022-09-13 08:57:15 1207 4
原创 Java相关
1. Collection和CollectionsCollection 是Java中各种集合结构的父接口。Collections是包含各种集合操作的私有方法,静态方法。Java的集合框架有2种类型的容器,一种是集合Collection,存储元素的集合。一种是图Map,存储键值对。大概框架图:关注3点:1.接口。2.具体类。3.算法。(1)List列表 —— 有序、值可重复1、ArrayList优点: 底层数据结构是数组Array,查询快。增删慢。缺点: 线程不安全,效率高2、Vecto
2022-09-10 20:09:07 259
原创 spring问题整理
spring 问题整理1. SpringBoot找不到或无法加载主类2. 启动失败2018-12-28 13:52:16.741 INFO 20236 — [ main]o.s.c.n.e.s.EurekaServiceRegistry : Registering applicationUNKNOWN with eureka with status UP 2018-12-28 13:52:16.742 INFO 20236— [ m
2022-09-10 20:08:10 354
原创 虚拟机centos7安装MySQL5.7,远程连接
虚拟机centos7安装MySQL5.7,远程连接记录相关问题和安装过程。1.安装mysql1.下载wget http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm2.安装yum -y install mysql57-community-release-el7-10.noarch.rpm3.修改MySQL源配置vi /etc/yum.repos.d/mysql-community.repo配置为清华的镜像源
2021-01-30 16:11:51 502
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人