- 博客(21)
- 收藏
- 关注
原创 Docker的学习笔记
网上关于docker的介绍很多,要不就是讲的很底层,要不就是不连贯,能把知识穿起来的我没找到,所以最后还是自己写个笔记,方便以后回顾。对于笔记的学习,还是看不太进去,准备找一些视频介绍进行学习。
2025-02-19 12:55:56
1502
原创 关于Hugging face的那些事
这类问题,无法通过选择题来做标准数据集,在实际应用中,很多下游任务往往是这种更贴近人类的开放性问题任务,他不会是做一个选择题或者数学题。它提供了多个工具和库,最著名的是 Transformers 库,里面包含了许多预训练的模型,如 BERT、GPT、T5 等,可以用于文本生成、分类、翻译等多种任务。此外,Hugging Face 还提供了 Model Hub,用户可以分享和下载各种模型,以及 Datasets Hub,用于管理和共享数据集。最终,由于电脑配置不高,死活跑不起来,只能了解了解概念,运行不了。
2024-11-12 16:19:35
1026
原创 阅读论文7--Speculative Contrastive Decoding
大型语言模型(llm)在语言任务中表现出优异的性能,但由于高计算要求,它们的自回归推理受到限制,并且由于暴露偏差而不是最优的。受推测解码和对比解码的启发,我们介绍了推测对比解码(SCD),这是一种简单而强大的解码方法,利用较小的语言模型(lm)的预测来实现解码加速和质量改进。对四种不同语言任务的广泛评估和分析证明了SCD的有效性,表明一个较小的LM可以兼容地提高解码效率和质量。在本文中,我们提出了推测性对比解码,这是一种自然集成小型业余LMs的解码策略,用于LLMs的推理加速和质量改善。
2024-11-02 17:00:12
920
原创 十月学习笔记
预训练模型是一个通过大量数据上进行训练并被保存下来的网络。可以将其通俗的理解为前人为了解决类似问题所创造出来的一个模型,有了前人的模型,当我们遇到新的问题时,便不再需要从零开始训练新模型,而可以直接用这个模型入手,进行简单的学习便可解决该新问题。
2024-11-01 12:44:21
866
原创 阅读论文5——ORCA: A Distributed Serving System for Transformer-Based Generative Models
最近,为生成任务训练的基于Transformer的大规模模型(如 GPT-3)引起了人们的极大兴趣,强调了为该系列模型提供系统支持的必要性。由于这些模型以自回归的方式生成下一个标记,因此需要多次运行模型来处理推理请求,而模型的每次迭代都会为请求生成一个输出标记。然而,现有的推理服务系统在处理这类具有多迭代特征的工作负载时表现不佳,原因是它们的调度机制不够灵活,无法改变当前正在处理的请求批次;比批次中其他请求更早完成的请求无法返回客户端,而新到达的请求则必须等到当前批次完全处理完毕。
2024-10-24 21:29:04
1490
原创 阅读论文4--Efficient Memory Management for Large Language Model Serving with PagedAttention
本篇要看到论文是Efficient Memory Management for Large Language Model Serving with PagedAttention,这篇论文主要是介绍PagedAttention技术,想了解这个技术,所以从这篇文献开始看这个技术直接去了解,其实对他的介绍是采用虚拟内存的分页技术,减少内存碎片的产生,把内存中的内存碎片充分利用起来,从而提升内存使用率。这个是我目前的了解,希望看完这篇文献能有更好的理解。这个论文是有开源代码的,在github上。
2024-10-16 20:56:31
497
原创 学习笔记(大模型推理)
Index-1.9B-32K 是一个拥有 1.9B (19亿)参数并具备 32K 上下文长度的语言模型,此类模型通常用于复杂的对话系统和文本生成任务。相比之下,RNN需要一步步递推才能捕捉到,而CNN则需要通过层叠来扩大感受野,这是Attention层的明显优势。Attention层的好处是能够一步到位捕捉到全局的联系,因为它直接把序列两两比较(代价是计算量变为O(n2)马尔可夫决策过程(MDP)是一个数学框架,用于描述在不确定环境中进行决策的问题。奖励函数(R):在状态转换过程中所获得的即时奖励。
2024-09-23 21:26:49
644
原创 阅读论文3
在看这篇论文之前,可以先学一些基本概念,一些大佬梳理好的知识例如:https://blog.csdn.net/csdn_xmj/article/details/138724399 在一篇 “基于Pytorch框架,从零实现Transformer模型实战”提示:以下是本篇文章正文内容主要的序列转导模型基于包括编码器和解码器的复杂递归或卷积神经网络。性能最好的模型还通过一种注意机制连接编码器和解码器。我们提出了一个新的简单的网络结构,变压器,完全基于注意力机制,完全免除递归和卷积。
2024-09-11 14:12:10
1082
原创 跑Transformer模型(完结)
至此,这个代码就已经看完了,懂了他的大致结构也会跑transformer的示例,下一步跑跑bert。看看大模型的结构。
2024-09-10 20:09:56
1325
原创 阅读论文2
为了实现更大的加速,研究人员采用GPU来实现并行算法,因为与CPU相比,GPU通常拥有更多内核,能够更好地完成并行计算。遥感图像是通过遥感技术获取的图像,这种技术使用飞机、卫星或其他飞行器上的传感器来从空中收集地球表面的数据。Tan等人[63]提出了一种用于遥感图像分类的并行特征提取方法,称为高斯-伯努利约束玻尔兹曼机。Bernabé等人[62]在多核CPU上开发了用于遥感高光谱图像的并行解混链方法。Jiménez等人[67]介绍了一种用于高光谱图像解混的并行空间-光谱预处理算法。
2024-09-05 16:20:28
330
原创 阅读论文1_d
在本文中,我们引入了 DistriFusion 来加速具有多个 GPU 的扩散模型以实现并行性。我们的方法将图像分成多个块,并将每个块分配给单独的 GPU。我们重用了之前步骤中预先计算的激活来维护块交互。在 Stable Diffusion XL 上,我们的方法在 8 个 NVIDIA A100 上实现了高达 6.1 倍的加速。这一进步不仅提高了 AI 生成内容创建的效率,还为未来 AI 应用并行计算的研究树立了新的标杆。
2024-09-03 14:28:47
826
原创 阅读论文1_c
至此,这篇论文的方法部分算是看完了,还有很多地方没理解,浅浅的按照自己的理解总结一下他干了什么.在整篇论文中引入了位移块并行技术,实现扩散模型能够让一张图片进行gpu并行,从而解决高质量图片的延迟问题修改了原始运算符 Fl,Fl 是卷积、线性或交叉注意层,以选择性地在新鲜区域上启用稀疏计算修改了扩散模型的GN层,使其不要那么慢的进行组归一化计算,如利用公式快速计算均值和方差,从而节省计算成本,产生的通信成本也可以被隐藏。
2024-09-02 21:25:08
724
原创 搭建复现论文代码所需运行环境(成功)
想复现论文,如果有代码的源码,其实最难的是搭建运行环境,只要环境搭建起来,就可以跑代码,那时候需要担心的就是实验效果不行的问题先找到github开源项目地址,以这篇论文为例对于代码的复现,主要是完成环境的搭建,按照md文件运行,对于一些变量的补充,如这个代码中的gpu数量,要依据这个按照自己的理解 代码的描写来补充,使其能顺利运行。这个的运行只要是在hugface里面下载模型比较麻烦,其他就没什么了。
2024-08-31 16:42:55
2302
原创 尝试跑代码
这个论文有github地址,跑试试,我怀疑以我的能力可能不行,边写边看吧。在服务器中,需要cuda环境大于12.0。我现有的服务器环境是10点多,11点多。要把服务器cuda环境换了,这一步可能我就会卡很久,开干。
2024-08-22 14:44:46
259
原创 跑docker
这里面的变量的含义解释:REPOSITORY代表的镜像的仓库源,TAG是镜像的标签,IMAGE ID是镜像的ID,CERATED说明镜像的创建时间,SIZE代表镜像的大小。使用docker ps 查看运行的容器 容器名只需要输入前三个字母即可,使用docker stop id 停止容器,再试试容器。删除容器,必须先确保没有其他容器引用她,用docker ps检查。学会了,但好像又没啥,容器好像也不好用,还是正常环境里面跑,看看以后能不能用上docker,用上再复习它。删除引用镜像的容器,失败。
2024-08-21 21:28:31
381
原创 P100中安装其他版本CUDA cuDNN
cat /usr/local/cuda/include/cudnn.h |grep CUDNN_MAJOR -A 2
2023-10-13 09:15:21
772
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人