大模型
文章平均质量分 83
无
idiotyi
这个作者很懒,什么都没留下…
展开
-
【文献阅读】AdaLora: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
矩阵分解为什么可以加速推理假设原始权重矩阵W∈Rm∗nW∈Rm∗n,矩阵乘法中时间复杂度为mn,变形为WBAB∈Rm∗rA∈Rr∗nWBAB∈Rm∗rA∈Rr∗n,则时间复杂度变为mr+r*n。原创 2024-09-05 18:40:03 · 1006 阅读 · 0 评论 -
【大模型】Agent基础知识
微调(Fine-tuning)智能体模型(Agent)是一种常见的方法,用于在特定任务或特定数据集上优化预训练模型的性能。各种智能体可以结合使用。原创 2024-09-01 11:30:57 · 932 阅读 · 0 评论 -
【大模型】Reflextion解读
一种大模型强化学习技术,将传统的梯度更新时的参数信号替换成上下文的语言总结,过程和人类反思相似。区别与RLHF,Reflextion是agent自我反思,RLHF是人类反馈。原创 2024-08-31 17:24:19 · 621 阅读 · 0 评论 -
【大模型】LangChain基础学习
LangChain是一个用于构建端到端语言模型应用的框架。原创 2024-08-31 16:51:30 · 1020 阅读 · 0 评论 -
【大模型】GPT系列模型基础
GPT整体上与transformer结构相似,但只用了decoder部分。原创 2024-08-29 20:00:37 · 1159 阅读 · 1 评论 -
【大模型】chatglm系列模型基础
2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B 是亚洲唯一入选的大模型。GLM-130B 在准确性和恶意性指标上与 GPT-3 175B持平。chatglm1,2,3代在模型架构上基本一样,本文主要讲解模型结构。原创 2024-08-29 14:44:12 · 1006 阅读 · 0 评论 -
【大模型】llama系列模型基础
llama基于transformer架构,与GPT相似,只用了transformer的解码器部分。本文主要是关于llama,llama2和llama3的结构解读。原创 2024-08-28 22:18:28 · 1577 阅读 · 1 评论 -
【大模型】triton inference server
triton inference server常用于大模型部署,可以采用http或GRPC调用,支持大部分的 backend,单GPU、多GPU都可以支持,CPU也支持。本文主要是使用triton inference server部署大模型的简单流程示例。原创 2024-08-20 21:48:56 · 459 阅读 · 0 评论 -
【大模型】llama-factory基础学习
llama-factory支持json格式文件,自定义数据集中每条数据格式如下:“prompt”: “介绍一下苹果”,“response”: “苹果公司(Apple Inc.),是一家美国跨国科技公司,总部位于加利福尼亚州库比蒂诺。"demo": {demo是映射后使用的数据集别名,file_name是数据集路径,file_sha1不是必需的,但是可以缓存预处理后的数据集,避免二次训练时重新预处理,sha1的生成可以通过终端运行shasum -a 1 filename(linux命令)原创 2024-08-08 16:22:08 · 884 阅读 · 0 评论 -
【大模型】提示工程基础学习
即自动地为通过输出示例指定的任务生成指令:通过直接推理或基于语义相似性的递归过程生成几个候选指令,用目标模型执行它们,并根据计算出的评估分数选择最合适的指令。RAG 会接受输入并检索出一组相关/支撑的文档,并给出文档的来源(例如维基百科)。这些文档作为上下文和输入的原始提示词组合,送给文本生成器得到最终的输出。接下来是第二阶段的答案推断,它利用生成的理性信息。通过构建特定的提示语句,引导模型从已有的知识库中提取、整合并生成新的、有用的知识内容。手动添加的方式效果更好,但零样本的CoT更方便。原创 2024-07-09 11:27:52 · 583 阅读 · 0 评论 -
【大模型】Vllm基础学习
vllm是一个大语言模型高速推理框架,旨在提高大模型的服务效率。优势是内存管理,实现的核心是pageattetion算法。仅在gpu上加速,不在cpu加速。原创 2024-06-26 16:21:21 · 872 阅读 · 0 评论