学习笔记
小怪兽会微笑
华师大小博士
展开
-
ubuntu递归下载deb安装包,解决离线依赖问题
换成自己需要安装的包,虽然下面代码会递归下载依赖安装包,但是在离线环境下仍然可能会出现依赖包为配置问题。最后,把所有安装包移到离线电脑上的一个文件夹后,使用下面命令安装deb包。如果出现反配置问题,可以使用下面的命令自动反配置来强制安装某些包。主要针对离线环境的电脑安装deb包。所有安装包都不报错才能安装成功。原创 2024-07-25 16:17:46 · 296 阅读 · 0 评论 -
CLIP各个模型的性能比较图
CLIP各个模型的性能比较图原创 2024-07-05 19:15:01 · 145 阅读 · 0 评论 -
简单方法判断一个字符串是中文还是英文的
【代码】简单方法判断一个字符串是中文还是英文的。原创 2024-07-04 12:19:40 · 130 阅读 · 0 评论 -
大模型参数高效微调学习笔记
1.BitFit将模型的所有偏置bias设为可训练的参数,其他部分设置为不可训练的。将模型的所有注意力层Attention设为可训练的参数,其他部分设置为不可训练的。在模型的输入的prompt前面加入一个可训练Prompt embedding向量,模型的整个部分全部冻结,如下图。如果Prompt embedding向量参数是随机初始化的,则是soft prompt,如果使用一段文本初始化(例如,“下面是一个情感任务”),则是hard prompt。4.P-tuning。原创 2024-06-23 21:06:05 · 428 阅读 · 0 评论 -
Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)
Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)性能推理速度(从大到小)72B57B-A14B7B1.5B0.5B原创 2024-06-15 19:20:15 · 6179 阅读 · 0 评论 -
图片based64编码解码python代码
【代码】图片based64编码解码python代码。原创 2024-06-14 19:13:34 · 313 阅读 · 0 评论 -
大模型单次预测下一个token的过程分析,帮助理解model.generate
【代码】大模型单次预测下一个token的过程分析,帮助理解model.generate。原创 2024-06-14 18:42:52 · 254 阅读 · 0 评论 -
GLM4-Chat-1M(号称可以输入200万字)的长文本测试结果(推理时间,推理效果)
vllm框架比普通的generate生成结果更快挺多的,设备受限,目前测试最大的长度为455731万个字符,大约22万个token,确实是能跑的,大概需要80.355秒,从结果来看是可以接受的。但是模型的输出看起来时好时坏,不稳定。原创 2024-06-12 22:06:34 · 702 阅读 · 0 评论 -
glm-4-9b-chat-1m模型结构解读
【代码】glm-4-9b-chat-1m模型结构解读。原创 2024-06-10 20:45:50 · 311 阅读 · 0 评论 -
Internlm_xcomposer2模型结构解读
【代码】Internlm_xcomposer2模型结构解读。原创 2024-06-10 17:12:24 · 235 阅读 · 0 评论 -
Qwen2-MOE-57B-A14B模型结构解读
该模型总的参数为57B,激活参数为14B,推理速度比32B的快,而且性能更好。原创 2024-06-09 21:44:31 · 1873 阅读 · 0 评论 -
多模态数学推理数据集:MATH-V和MATHVISTA
这里选取了两篇多模态数学推理数据集的代表工作MATH-V和MATHVISTA,均是今年2024年发表的工作。前者是港中大的工作,后者是加利福尼亚大学洛杉矶分校的工作。原创 2024-05-18 12:26:39 · 895 阅读 · 0 评论 -
使用在线工具等方式下载推特视频
【代码】使用在线工具等方式下载推特视频。原创 2024-05-16 09:54:08 · 1031 阅读 · 0 评论 -
Python画图时好看的颜色列表,7个颜色
在Python中,使用matplotlib库可以画出各种图表,并且可以自定义颜色。可以根据自己的喜好和图表的需求选择适合的颜色列表。原创 2024-05-06 20:11:55 · 951 阅读 · 1 评论 -
python实现字符串转义
【代码】python实现字符串转义。原创 2024-05-04 15:14:47 · 202 阅读 · 0 评论 -
simpletex的api调用代码
【代码】simpletex的api调用代码。原创 2024-04-22 23:36:02 · 180 阅读 · 0 评论 -
Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名
【代码】Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名。原创 2024-04-19 21:59:46 · 518 阅读 · 0 评论 -
Python遍历文件夹(包括子文件夹)下所有zip文件进行解压
【代码】Python遍历文件夹(包括子文件夹)下所有zip文件进行解压。原创 2024-04-15 21:18:00 · 327 阅读 · 2 评论 -
python递归统计文件夹下pdf文件的数量
【代码】python递归统计文件夹下pdf文件的数量。原创 2024-04-14 16:43:05 · 425 阅读 · 2 评论 -
python调用Microsoft Word把文件夹下所有docx或doc批量转化为PDF
请注意,这个脚本会关闭Word应用程序,但在某些情况下,Word进程可能会留在后台。为了避免这种情况,你可以在转换完成后确保Word进程被完全关闭。此外,由于这个方法依赖于Microsoft Word的COM接口,它只能在安装了Microsoft Word的Windows系统上运行。函数接受一个目录路径作为参数,并遍历该目录中的所有DOC和DOCX文件,将它们转换为PDF文件。首先,确保你的系统上安装了Microsoft Word。库打开Word应用程序,打开指定的Word文档,并将其另存为PDF格式。原创 2024-04-14 13:27:01 · 514 阅读 · 0 评论 -
计算机常见的六大会议介绍:CVPR/ICCV/ECCV;NeurIPS/ICML/ICLR
CVPR、ICCV和ECCV是计算机视觉领域顶级的三个国际会议,而NeurIPS、ICML和ICLR则是机器学习领域最具影响力的三个国际会议。原创 2024-04-13 22:34:56 · 1475 阅读 · 0 评论 -
Mathpix和Simpletex对比
在不超过 15 的素数中,随机选取 2 个不同的数,则这 2 个数的积是偶数的概率是 ( )\quad ( a\in \mathbb{R} $,i为虚数单位),的值为( ) A. l B.2 C.3 D.4。, 则实数 m 的值为( ) A.C.1 D.25. 已知向量。复数$z= \alpha+是 z 的共轭复数,若。原创 2024-04-09 13:00:23 · 971 阅读 · 0 评论 -
基于频繁模式挖掘的 GCC 编译时能耗演化优化算法
基于频繁模式挖掘的 GCC 编译时能耗演化优化算法1.摘要18年我尊爱的导师发在软件学报上的一篇论文。演化算法通过搜寻 GCC 编译器最优编译选项集对可执行代码的能耗进行改进,以达到编译时优化嵌入式软件能耗的目的.但这类算法未考虑多个编译选项之间可能存在相互影响,导致了其解质量不高且收敛速度慢的问题.针对这一不足,本文设计了一种基于频繁模式挖掘的文化基因算法 MA-FP,在演化过程中利用频繁模式挖掘得到出现频度高且对能耗有显著改进效果的一组编译选项,并以此作为启发式信息设计了“增添”和“删减”两种变异算原创 2024-03-12 15:34:23 · 744 阅读 · 0 评论 -
(一区)基于模型的连续和离散全局优化方法
Model-based methods for continuous and discrete global optimization1.摘要本文综述了下基于模型的连续和离散全局优化方法,并提出了一种叠加替代信息的新方法。2.介绍比较水。。作者说,本文是首次尝试提供对连续和离散建模方法的可理解的调查和分类。由于离散领域的MBO是一个相对较新的研究课题,因此引入了处理离散结构的六种策略。在描述了这些策略如何作为应用MBO的指导方针之后,本文讨论了替代模型的集合作为MBO的最新和很有前途的方法。3.分原创 2024-03-12 15:33:33 · 352 阅读 · 0 评论 -
(顶会)组合结构的贝叶斯优化
Bayesian Optimization of Combinatorial Structures1.摘要本文提出了一个算法(BOCS),它基于一个自适应的、可扩展的模型,即使数据稀缺,也能识别有用的组合结构。我们的采集函数率先使用半定编程来实现效率和可伸缩性。实验结果表明,该算法的性能始终优于其他组合方法和贝叶斯优化方法。2.介绍本文的主要贡献是:一种获得获取函数近似优化器的新方法,利用凸优化的算法思想来实现可伸缩性和效率。该方法克服了许多采集函数对大型组合领域所固有的有限的可扩展性。我们提原创 2024-03-12 15:32:35 · 315 阅读 · 0 评论 -
torchrun常见参数
【代码】torchrun常见参数。原创 2024-03-12 15:30:24 · 1271 阅读 · 0 评论 -
19个大模型常用的评估数据集和训练数据集汇总
19个大模型常用的评估数据集和训练数据集汇总 名称 简介 测试(数据量) 训练(数据量) 地址 CEval 中文选择题测试,包括中学、高中、大学的多个学科 √,13948 × https://huggingface.co/datasets/ceval/ceval-exam GSM8K 小学数学题目,通过最后的数字检测正确与否 √,1320 √,8790 h原创 2024-02-21 20:46:50 · 2757 阅读 · 1 评论 -
怎么让视频进行加速处理并保存
在 Windows 和 macOS 上,你可以从 FFmpeg 官方网站(https://ffmpeg.org/download.html)下载预编译的可执行文件,然后按照官方文档或相关教程进行安装和使用。因此,它不仅限于 Linux 系统,也可以在其他操作系统上使用。请注意,加速倍数越大,可能会导致视频和音频的质量损失,因此你可能需要根据具体情况进行调整。此外,这只是一个基本的例子,你可以根据需要使用其他参数和过滤器进行更高级的调整。总之,FFmpeg 是一个跨平台工具,可以在不同的操作系统上使用。原创 2024-01-05 11:04:19 · 1886 阅读 · 0 评论 -
API服务的快速搭建和测试
【代码】API服务的快速搭建和测试。原创 2023-12-29 15:45:13 · 578 阅读 · 0 评论 -
大模型:常见的文字表情包(可以直接加到微调数据里)
返回论文目录返回资料目录原创 2023-12-11 22:45:04 · 827 阅读 · 0 评论 -
大模型加载的参数介绍及推荐表,temperature、top_k、top_p、num_beams、num_beam_groups、do_sample等
如果需要非常清晰读懂每个参数,需要了解一下与大模型配套的。原创 2023-11-29 17:05:15 · 10291 阅读 · 1 评论 -
分享一波chatgpt的常用prompt
【代码】分享一波chatgpt的常用prompt。原创 2023-11-27 21:36:12 · 1343 阅读 · 0 评论 -
1B(10亿)的token大概需要多少磁盘空间存储
【代码】1B(10亿)的token大概需要多少磁盘空间存储。原创 2023-11-16 14:46:53 · 2623 阅读 · 0 评论 -
怎么推算max_step和epoch之间关系,例如多少step一个epoch
(轮次)之间的关系取决于您的训练流程和超参数设置。通常情况下,一个step通常表示对一个batch的训练,而epoch则表示一次完整的数据集训练。是您希望运行的轮次数量。这个公式假设每个step处理一个batch数据,其中,总训练样本数是您的训练数据集中的样本总数,表示遍历整个数据集的次数。原创 2023-11-08 11:11:00 · 1295 阅读 · 0 评论 -
source activate my_env 和conda activate my_env 有什么区别
是两个不同的命令,用于在Conda环境中激活特定的虚拟环境。它们的区别在于它们分别适用于不同版本的Conda。如果您使用较旧的Conda版本,那么source activate 仍然可用,但已被逐渐淘汰。它也用于激活特定的Conda虚拟环境,但它是更简单、更直观的方式,取代了source activate。它用于激活(进入)一个特定的Conda虚拟环境,使您可以在该环境中运行安装的软件包。,其中 my_env 是虚拟环境的名称。,其中 my_env 是虚拟环境的名称。以及更早的版本)中使用的方式。原创 2023-11-08 11:06:44 · 2731 阅读 · 0 评论 -
python输出当前的IP地址
【代码】python输出当前的IP地址。原创 2023-11-06 20:35:00 · 270 阅读 · 0 评论 -
集群外访问计算节点gpu上的web链接
无法直接访问计算节点。管理节点可以访问计算节点,计算节点无法访问自身外的网络。上运行,运行后给了一个web的地址,如下图所示。现在有一个程序,通过提交作业的方式在集群的。原创 2023-11-06 16:13:26 · 180 阅读 · 0 评论 -
Python中OS库的常用命令及示例
Python的**os**库是一个强大的库,用于与操作系统进行交互。它提供了许多功能,包括文件和目录管理、环境变量访问以及执行系统命令。在本篇博客中,我们将列举20个**os**库的常用命令,并为每个命令提供示例。原创 2023-10-31 15:37:42 · 316 阅读 · 0 评论 -
怎么用python代码查看可用的gpu,然后指定可用的gpu运行
【代码】怎么用python代码查看可用的gpu,然后指定可用的gpu运行。原创 2023-10-31 11:04:59 · 3309 阅读 · 0 评论 -
为什么大模型计算的时候只会利用KVcache来存放KV矩阵,Q矩阵每次不一样?
总之,KV Cache是一种用于提高Transformer架构的推理效率的技术,通过缓存K和V矩阵,从而避免不必要的计算,但由于Q矩阵通常不稳定,因此不会被缓存。KV Cache的思想是,对于K和V矩阵,由于它们相对稳定,可以在不同时间步骤缓存它们,这样,对于相同的输入,您不需要重新计算K和V矩阵,而可以重复使用它们。在Transformer中,自注意力机制的操作包括Q(Query)、K(Key)和V(Value)的计算。相反,Q矩阵是依赖于输入的,因此每次都不同,无法进行缓存,因此Q矩阵通常不被缓存。原创 2023-10-24 22:47:40 · 1674 阅读 · 6 评论