自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 阅读论文4_ing

本篇要看到论文是Efficient Memory Management for Large Language Model Serving with PagedAttention,这篇论文主要是介绍PagedAttention技术,想了解这个技术,所以从这篇文献开始看这个技术直接去了解,其实对他的介绍是采用虚拟内存的分页技术,减少内存碎片的产生,把内存中的内存碎片充分利用起来,从而提升内存使用率。这个是我目前的了解,希望看完这篇文献能有更好的理解。

2024-10-16 20:56:31 116

原创 学习笔记(大模型推理)

Index-1.9B-32K 是一个拥有 1.9B (19亿)参数并具备 32K 上下文长度的语言模型,此类模型通常用于复杂的对话系统和文本生成任务。相比之下,RNN需要一步步递推才能捕捉到,而CNN则需要通过层叠来扩大感受野,这是Attention层的明显优势。Attention层的好处是能够一步到位捕捉到全局的联系,因为它直接把序列两两比较(代价是计算量变为O(n2)马尔可夫决策过程(MDP)是一个数学框架,用于描述在不确定环境中进行决策的问题。奖励函数(R):在状态转换过程中所获得的即时奖励。

2024-09-23 21:26:49 572

原创 跑bert模型(完结)

运行环境只有cpu的window,运行软件是pycharm。

2024-09-19 19:46:02 757

原创 阅读论文3

在看这篇论文之前,可以先学一些基本概念,一些大佬梳理好的知识例如:https://blog.csdn.net/csdn_xmj/article/details/138724399 在一篇 “基于Pytorch框架,从零实现Transformer模型实战”提示:以下是本篇文章正文内容主要的序列转导模型基于包括编码器和解码器的复杂递归或卷积神经网络。性能最好的模型还通过一种注意机制连接编码器和解码器。我们提出了一个新的简单的网络结构,变压器,完全基于注意力机制,完全免除递归和卷积。

2024-09-11 14:12:10 997

原创 跑Transformer模型(完结)

至此,这个代码就已经看完了,懂了他的大致结构也会跑transformer的示例,下一步跑跑bert。看看大模型的结构。

2024-09-10 20:09:56 901

原创 阅读论文2

为了实现更大的加速,研究人员采用GPU来实现并行算法,因为与CPU相比,GPU通常拥有更多内核,能够更好地完成并行计算。遥感图像是通过遥感技术获取的图像,这种技术使用飞机、卫星或其他飞行器上的传感器来从空中收集地球表面的数据。Tan等人[63]提出了一种用于遥感图像分类的并行特征提取方法,称为高斯-伯努利约束玻尔兹曼机。Bernabé等人[62]在多核CPU上开发了用于遥感高光谱图像的并行解混链方法。Jiménez等人[67]介绍了一种用于高光谱图像解混的并行空间-光谱预处理算法。

2024-09-05 16:20:28 276

原创 阅读论文1_d

在本文中,我们引入了 DistriFusion 来加速具有多个 GPU 的扩散模型以实现并行性。我们的方法将图像分成多个块,并将每个块分配给单独的 GPU。我们重用了之前步骤中预先计算的激活来维护块交互。在 Stable Diffusion XL 上,我们的方法在 8 个 NVIDIA A100 上实现了高达 6.1 倍的加速。这一进步不仅提高了 AI 生成内容创建的效率,还为未来 AI 应用并行计算的研究树立了新的标杆。

2024-09-03 14:28:47 762

原创 阅读论文1_c

至此,这篇论文的方法部分算是看完了,还有很多地方没理解,浅浅的按照自己的理解总结一下他干了什么.在整篇论文中引入了位移块并行技术,实现扩散模型能够让一张图片进行gpu并行,从而解决高质量图片的延迟问题修改了原始运算符 Fl,Fl 是卷积、线性或交叉注意层,以选择性地在新鲜区域上启用稀疏计算修改了扩散模型的GN层,使其不要那么慢的进行组归一化计算,如利用公式快速计算均值和方差,从而节省计算成本,产生的通信成本也可以被隐藏。

2024-09-02 21:25:08 621

原创 九月学习笔记

记录这个月的学习内容。

2024-09-02 14:28:03 215

原创 搭建复现论文代码所需运行环境(成功)

想复现论文,如果有代码的源码,其实最难的是搭建运行环境,只要环境搭建起来,就可以跑代码,那时候需要担心的就是实验效果不行的问题先找到github开源项目地址,以这篇论文为例对于代码的复现,主要是完成环境的搭建,按照md文件运行,对于一些变量的补充,如这个代码中的gpu数量,要依据这个按照自己的理解 代码的描写来补充,使其能顺利运行。这个的运行只要是在hugface里面下载模型比较麻烦,其他就没什么了。

2024-08-31 16:42:55 609

原创 阅读论文1_b

写的整体格式是 对论文相对位置的翻译,斜体是自己的理解部分。

2024-08-28 13:07:08 813

原创 尝试跑代码

这个论文有github地址,跑试试,我怀疑以我的能力可能不行,边写边看吧。在服务器中,需要cuda环境大于12.0。我现有的服务器环境是10点多,11点多。要把服务器cuda环境换了,这一步可能我就会卡很久,开干。

2024-08-22 14:44:46 175

原创 论文阅读1_a

文献阅读。

2024-08-22 12:38:56 112

原创 跑docker

这里面的变量的含义解释:REPOSITORY代表的镜像的仓库源,TAG是镜像的标签,IMAGE ID是镜像的ID,CERATED说明镜像的创建时间,SIZE代表镜像的大小。使用docker ps 查看运行的容器 容器名只需要输入前三个字母即可,使用docker stop id 停止容器,再试试容器。删除容器,必须先确保没有其他容器引用她,用docker ps检查。学会了,但好像又没啥,容器好像也不好用,还是正常环境里面跑,看看以后能不能用上docker,用上再复习它。删除引用镜像的容器,失败。

2024-08-21 21:28:31 305

原创 Docker 学习笔记

Docker 学习笔记

2024-08-21 20:20:57 206

原创 P100中安装其他版本CUDA cuDNN

cat /usr/local/cuda/include/cudnn.h |grep CUDNN_MAJOR -A 2

2023-10-13 09:15:21 514

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除