大模型
文章平均质量分 50
大模型实战
微雨盈萍cbb
这个作者很懒,什么都没留下…
展开
-
大模型介绍
大模型通常指的是参数规模极大的深度学习模型,例如近年来流行的GPT系列、BERT、T5等。大模型的崛起得益于硬件计算能力的提升以及大规模数据的可用性,特别是在云计算和分布式计算技术的发展下,这类模型的训练和推理得以实现。下面是关于大模型的详细介绍。随着硬件技术的进步和新的训练方法的出现,大模型的发展前景广阔。广泛的适用性:同一个大模型可以通过微调适应不同的任务,从而节省了为每个任务单独训练模型的时间和资源。持续改进:随着更多数据的引入和模型架构的优化,大模型的性能可以持续提升。原创 2024-08-27 16:55:36 · 199 阅读 · 0 评论 -
paddla模型转gguf
在使用ollama配置本地模型时,只支持gguf格式的模型,所以我们首先需要把自己的模型转化为bin格式,本文为paddle,onnx,pytorch格式的模型提供说明,safetensors格式比较简单请参考官方文档,或其它教程。paddle需要在训练结束后将模型保存为onnx格式。原创 2024-07-11 13:52:59 · 609 阅读 · 0 评论 -
大模型相关介绍
图片转存失败,想看这篇文章的小伙伴可以去下载pdf 版本。类:选择模型中的部分层比如最后几层、或偏置项进行微调。的核心是通过优化一个特定的目标函数来进行策略更新,生成不受欢迎的完成的可能性。在预训练模型的每一层之间添加一个小的参数适配器(类:在预训练模型基础上增加额外的参数或者网络层。模块是由一小部分参数组成的额外的前馈神经网络。个偏好对都包含一个提示和两种可能的完成方式。高其在特定任务或领域上的性能。它的工作原理是创建人类偏好对的数据集。用的子空间中去寻找参数进行微调。世界应用中的表现也令人惊叹。原创 2024-06-18 13:31:22 · 433 阅读 · 0 评论 -
大模型三种架构
代表的有openai的GPT,meta的Llama。在Decoder-Only模型架构中,模型只包含一个解码器,没有编码器。优点:专注于生成部分,能够生成连贯、有创造性的文本,灵活性高。代表的有Google的T5模型,清华的GLM。优点:灵活强大:能够理解复杂输入并生成相关输出。缺点:架构复杂:相比单一的Encoder或Decoder,它更复杂。代表的有google的bert模型。优点:强大的理解能力:能够有效处理和理解输入数据。缺点:理解能力较差,不擅长理解复杂的输入。适用场景:情感分析,文本分类任务。原创 2024-06-12 14:54:19 · 301 阅读 · 1 评论 -
Transformer模型代码(详细注释,适合新手)
本文提供了transformer代码附带详细注释,要注意本文的transformer并非传统的encoder-decoder结构的,而是主流的gpt结构(decoder-only),不了解decoder-only的同学,可以参考我的另一篇文章,链接放在最后。我过几天会出一个介绍gpt模型结构的的文章,欢迎大家前来讨论。原创 2024-06-13 10:35:50 · 1113 阅读 · 1 评论 -
linux常用指令(不断更新中)
使用时可以输入前几个字符,点击TAB键,无需手动输入后续字符。rm -f 删除文件,-r代表递归删除,-rf强制删除目录了。mkdir data即可新建data目录。docker ps –a查询所有容器状态。docker start +名字启动容器。展示路径下所有文件以及子目录。docker rm删除容器。按下esc退出当前模式。打开文本文件进行编辑。输入i进入可编辑模式。6.创建目录mkdir。输入:wq保存并退出。原创 2024-06-18 11:22:35 · 260 阅读 · 1 评论