shdjmouyu-CSDN博客

原创 Datawhale X 李宏毅苹果书AI夏令营学习笔记第一部分

这次从第三章直接开始学习，局部极小值是指在目标函数的某些区域内，该点的函数值比邻近的点都要小，从而在梯度下降等优化算法中可能被误认为是全局最小值。而鞍点则更为复杂，它在某一方向上可能是极小值，而在另一个方向上却是极大值，导致优化过程可能在这里停滞不前。

2024-08-27 23:18:12 178

原创 rag简介和简易实现

众所周知，大模型拥有日常大部分领域的知识，别说gpt,国内大部分大模型基本都能做到应付你生活，工作遇到的一些基础问题。由于数据的限制，大模型面对一些比较偏门的领域比较相形见拙。假如无法回答相关问题，假如调教的好大模型可能直接回答不知道，但大部分情况下大模型会出现早期非常容易出现的情况，就是胡说八道。这就是大模型常见的幻觉问题。而RAG就是一种解决幻觉问题的一种解决方法。

2024-05-21 02:51:09 869

原创 qwen结构笔记

学习的时候由于基础不稳，基本只是看了一遍流程，了解其中每层的一些作用，具体的算法和数据结构没有细看，不过也算了解了一些大模型的基础结构知识。

2024-05-17 02:49:44 1044

原创第七章作业两小时速通

作为低配大模型表现还行，主要不行的是逻辑和法律方面。高等数学表现非常悲剧，不够中学化学表现还行。大概只需要列公式还是太简单了。

2024-05-12 14:50:58 113

非常简单的任务，完成几个命令行就能完成对大模型的评测，主要是导入测评集和环境需要时间，评测需要半小时以上。使用时先设置agent，agent类，再确定要使用的工具，工具可以通过修改agentlego/tools/__init__.py 文件，需要先导入自己的自定义工具，再在all中加入工具名。这章主要讲了量化部署的方法，使用量化和降低显存使用的方式可以显著降低模型的显存需求，代价是性能的降低和回应时间的增加。--cache-max-entry-count 指令。降低显存用的是LMDeploy中的。

2024-05-12 14:41:08 312

原创第2-4章笔记

看了一下X_tuner的具体流程，具体与微调相关的分为两点，前期准备包括数据集的采集，模型选择和确定微调方式，然后再X_tuner的配置库进行调整以达到自己想要的微调方向，数据集的生成十分简单，重要的是数据集质量，像课程里只用几句话的数据集最多可以给模型玩玩角色扮演。体验了茴香豆应用，主要的优点是能放入各类形式的文件，我本身尝试部署类rag应用时单是放入pdf类文件就挺麻烦的，能将ppt,doc一些文件自己构建向量数据库其实是一个麻烦的事。模型微调的成果可通过转换储存成Lora模型。

2024-05-12 14:06:52 114

原创第三章作业

学习感想： rag是一种新的大模型训练方法，得益于检索增强生成（RAG）技术，使得茴香豆在处理特定知识领域的复杂查询时，能够给出高效且准确的回应。不知道为什么，在引入了一定大小的数据库后，茴香豆可能降低识别无关对话的能力，会对无关问题做出相对不符合情景的回答。将已有的数据库转换成向量数据后，只要问题与库中的问题相似，即可按照外部数据库给出答案，这点免去了大量重新训练的时间。一些需要改进的地方：可能是网络问题，导入20MB以上的文件后，对话速度较慢，更新高精度llm后，有时反而不能识别到是否为询问问题。

2024-05-12 03:17:00 230

原创第六章作业速通

GPU算力紧张，排队麻烦，于是选了最低算力摸鱼速通,当然使用的模型也超过了显存要求，这里就先按照第五章将模型量化后运行。用ssh进行本地连接后，登录定好的地址，然后调用自己的agent,save后加载tool，进行一轮对话。运行后能成功进入web进行lagent交互，不过界面卡住了，似乎是，版本更新的问题，跳过。量化加低显存双重debuff后，模型正在胡言乱语，不过能正常调用agent api。然后进行webui的运行，先运行web demo程序，彻底不说话了，所以量化后最好提高以下显存占用。

2024-04-24 17:41:01 193

原创第五章作业

按照如下方法对模型量化，减少显存占用并提升速度，这里将教程的命令进行修改，模型换成量化后的，词库也进行更换，并调整最大显存占用。然后建立一个双端连接。使用python集成后运行量化模型，同样需要注意更改pipeline变量以及最大显存占比。与本地建立ssh连接后本地访问端口。使用lmdeploy直接对话。新建终端作为客户端访问。

2024-04-24 01:25:40 149

原创第四章作业

一定次数后，就只会喵了。

2024-04-23 22:09:45 116

原创书生训练营第二章

对作业的补充截图。

2024-04-23 22:00:55 109

原创书生·浦语大模型全链路开源体系笔记

大模型的发展可以说每周都有一些新活，不过新活不代表大活，个人觉得这两个月的大活主要是sora 和 suno ai，大家可以有空体验以下，尤其是后者，可以低门槛创造一首自己的音乐，还可以去薅以下CHATgpt的羊毛，这两周可以免注册体验gpt3.5。虽然参数很少，但大模型终究还是以大闻名，从原来的大模型到真正的落地应用分为，选择，微调，构建智能体，评估，部署这五步。个人觉得主要的成本在于第二步的微调。这份笔记主要是记录大模型的相关知识，顺带记下国内一些大模型的评分。

2024-04-12 16:26:51 146

shdjmouyu的博客