weixin_43193528-CSDN博客

原创【大模型】书生·浦语大模型实战营课程学习汇总

【大模型】书生·浦语大模型实战营第一节-CSDN博客https://blog.csdn.net/weixin_43193528/article/details/135447026【大模型】书生·浦语大模型实战营第二节-CSDN博客https://blog.csdn.net/weixin_43193528/article/details/135447175【大模型】第二节课作业-CSDN博客https://blog.csdn.net/weixin_43193528/article/details/1

2024-01-29 13:24:49 427

原创【大模型】第六节课作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能。

2024-01-24 21:10:56 503 1

原创【大模型】书生·浦语大模型实战营第六节

by 曹茂松 | OpenCompass 核心开发者。：找出最适合产业应用的模型，赋能真实场景。：监控模型能力变化，指导优化模型生产。：了解模型的特色能力和实际效果。：减少大模型带来的社会风险。

2024-01-24 21:08:27 1933 1

原创【大模型】第五节课作业

对internlm-chat-7b模型进行量化，并同时使用KV Cache量化，使用量化后的模型完成API服务的部署，分别对比模型量化前后（将 bs设置为 1 和 max len 设置为512）和 KV Cache 量化前后（将 bs设置为 8 和 max len 设置为2048）的显存大小。（3）在（1）的基础上开启KV Cache量化。（4）在（2）的基础上开启KV Cache量化。（2）在（1）的基础上采用W4A16量化。（5）使用Huggingface推理。

2024-01-17 20:56:10 519

原创【大模型】书生·浦语大模型实战营第五节

LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。架构* 接口：Python、gRPC、RESTful* 轻量化：4bit权重（awq）、8bit k/v* 推理引擎：TurboMind、Pytorch* 服务：API server、Gradio、triton inference server高效推理引擎持续批处理技巧深度优化的计算kernels动态分割与融合完备易用的工具链量化、推理、服务全流程。

2024-01-17 20:53:15 992

原创【大模型】第四节课作业

构建数据集，使用 XTuner 微调 InternLM-Chat-7B 模型, 让模型学习到它是你的智能小助手，效果如下图所示，本作业训练出来的模型的输出需要将不要葱姜蒜大佬替换成自己名字或昵称！作业参考答案：https://github.com/InternLM/tutorial/blob/main/xtuner/self.md。将训练好的Adapter模型权重上传到 OpenXLab、Hugging Face 或者 MoelScope 任一一平台。微调后（对自己的身份有了清晰的认知）

2024-01-14 16:44:02 403 1

原创【大模型】书生·浦语大模型实战营第四节

LLM的下游应用中，增量预训练和指令跟随是经常会用到的两种微调模式。傻瓜化：以配置文件的形式封装了大部分微调场景，0基础的非专业人员也能一键开始微调。轻量级：对于7B参数量的LLM，维泰所需的最小显存仅为8GB：消费级显卡，colab。适配多种生态：多种微调算法：多种微调策略与算法，覆盖各类SFT场景；适配多种开源生态：支持加载HuggingFace、ModelScope模型或数据集；自动优化加速：开发者无需关注复杂的显存优化与计算加速细节；

2024-01-14 16:40:58 1713 1

原创【大模型】第三节课作业

选择一个垂直领域，收集该领域的专业资料构建专业知识库，并搭建专业问答助手，并在 OpenXLab 上成功部署（截图，并提供应用地址）复现课程知识库助手搭建过程 (截图)

2024-01-14 16:30:07 481 1

原创【大模型】书生·浦语大模型实战营第三节

如何快速高效的开发一个RAG应用？开源框架LangChain为我们提供了这样的可能性。LangChain是一个针对大模型开发的第三方开源框架，旨在通过为各种大模型提供通用接口，来简化基于大模型的应用程序开发流程，从而帮助开发者自由构建大模型应用。LangChain封装了很多组件，通过这些组件的组合，可以构建多种类型的RAG应用。开发者可以直接将私域数据嵌入到LangChain中的组件，然后通过对这些组件进行组合，来构建适用于自己业务场景的RAG应用。

2024-01-14 16:26:26 823 1

原创【大模型】第二节课作业

使用 InternLM-Chat-7B 模型生成 300 字的小故事（需截图）。的 config.json 文件到本地（需截图下载过程）。熟悉 hugging face 下载功能，使用。python 包，下载。

2024-01-08 00:17:14 485 1

原创【大模型】书生·浦语大模型实战营第二节

什么是大模型：人工智能领域中参数数量巨大、拥有庞大计算能力和参数规模的模型。特点及应用利用大量数据进行训练；拥有数十亿甚至数千亿个参数；模型在各种任务重展现出惊人的性能。通过单一的代码库，InternLM支持在拥有数千个GPU的大型集群上进行预训练，并在单个GPU上进行微调，同时实现了卓越的性能优化。在1024个GPU上训练时，InternLM可以实现近90%的加速效率。包含了一个拥有70亿参数的基础模型和一个为实际场景量身定制的对话模型。利用数万亿的高质量token进行训练。

2024-01-08 00:06:38 1129 1

原创【大模型】书生·浦语大模型实战营第一节

综合考试：MMLU、C-Eval（val）、AGI-Eval；知识问答：BoolQ、TriviaQA、NaturalQuestions；阅读理解：CMRC、CSL、RACE（middle）、RACE（high）、XSum；推理：WinoGrande、BBH、GSM8K、PIQA；编程：HumanEval、MBPP。以不到三分之一的参数量，达到了Llama2-70B的水平。InternStudio 是大模型时代下的云端算力平台。

2024-01-07 23:57:09 1245

原创【机器学习】第六章支持向量机

分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。位于两类训练样本“正中间”的划分超平面对训练样本局部扰动的容忍性最好，所产生的分类结果是最鲁棒的，对未见示例的泛化能力最强。从几何角度，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面。相比于感知机，其解是唯一的，且不偏不倚，泛化能力更好。间隔貌似仅与w有关，但事实上b通过约束隐式的影响着w的取值，进而对间隔产生影响。

2023-08-05 22:29:45 73 1

原创【机器学习】第五章神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型，即上述定义中的“简单单元”。M-P神经元模型：神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接（connection）进行传播，神经元接收到的总输入值将于神经元的阈值进行比较，然后通过激活函数（activation function）处理以产生神经元的输出。

2023-08-02 21:15:45 59

原创【机器学习】第四章决策树

从逻辑（计算机）角度来说，是很多if-else语句的组合；从几何（数学）角度来说，是根据某种准则划分特征空间。叶节点对应于决策结果，其他每个节点对应于一个属性测试；根节点包含样本全集。从根节点到每个叶节点的路径对应了一个判定测试序列。最终目的：将样本越分越“决策树的目的是产生一棵泛化能力（处理未见示例能力）强的决策树，基本流程遵循简单直观的分治法原理。一般而言，随着划分过程不断地进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的纯度（purity）越来越高。

2023-07-30 21:37:07 62 1

原创【机器学习】第三章线性模型

许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或者高维映射而得。

2023-07-27 17:07:26 53 1

weixin_43193528的博客