gasgrge-CSDN博客

原创 Optimization

有助于optimization的方式：shuffling、dropout、gradient noise、warm up。CV领域多是SGD，NLP领域多是Adam。Adam：算的比较快，波动大。了解到的optimizer。

2024-02-27 16:11:59 357

原创全连接层是什么

当前层有n个神经元，下一层有m个神经元，则全连接层，当前层的n个神经元和下一层m个神经元都有连接。当前层的每一个神经元，都和下一层的每一个神经元有连接，叫全连接层。

2024-02-26 23:08:10 428

泛化性：small batch更多噪音，反而泛化性更好，large batch 泛化性更糟糕一些。没有并行计算的时候，small batch速度更快，large batch速度要慢一些。每一个epoch的时间，small batch更慢，large batch更快。梯度：small batch更多噪音，稳定性差，large batch更加稳定。优化：small batch优化更好，large batch优化更糟。有了并行计算的时候，两个速度相同。

2024-02-26 16:38:29 397

原创如何通过training loss和testing loss判断问题的方向？

李宏毅老师给了课程实验的通关秘诀，如何判断深度学习目前遇到什么问题。

2024-02-26 15:21:08 413

原创李宏毅2023机器学习作业1--homework1——python语法

字符串格式化：字符串中允许使用花括号{ }，来引入变量或者表达式。pandas.read_csv读取数据。加上花括号{}，就能在字符串里表示。

2024-02-25 17:13:52 359

原创李宏毅2023机器学习作业1--homework1——模型创建

方便更新超参数，对模型进行参数调整。

2024-02-25 17:11:51 658

原创李宏毅2023机器学习作业1--homework1——数据集操作

下载训练数据covid.train.csv测试数据covid.test.csv。

2024-02-25 15:50:27 487

原创李宏毅2023机器学习作业1--homework1

下载训练数据和测试数据导入包定义一些功能函数配置项。

2024-02-23 22:21:02 883 1

原创为什么需要验证数据集（validation set）

当我们在进行训练时，会不断地调整参数，降低训练集loss，期望模型无限逼近训练数据集，而这个过程会过拟合，模型在训练数据集上表现很好，在实际的测试集上泛化能力表现在变差。如果有了验证集，我们可以发现当验证集loss先降低，再升高时，这个时候模型可能就过拟合了，就没有必要再不断地优化下去，提醒我们什么时候会出现过拟合。

2024-02-23 18:49:34 381

原创 llama-7B、vicuna-7b-delta-v1.1和vicuna-7b-v1.3——使用体验

动手体验了下Vicuna-7b，翻译过来是小羊驼」（骆马），拥有70亿参数，据作者实验能达到GPT-4的90%性能。python3 -m cli是python3执行cli.py文件，具体内容，要看cli.py写了什么。Chatgpt的出现给NLP领域带来了让人振奋的消息，可以很逼真的模拟人的对话，回答人们提出的问题，不过Chatgpt参数量，规模，训练代价都很昂贵。提问方式很重要：输入china，回答的只能说是相关，文字就少很多。幸运的是，出现了开源的一些相对小的模型，可以在本地或者云端部署体验，

2023-11-06 18:43:22 805 1

原创 RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() i

意思：运行时错误：正在尝试反序列化CUDA设备上的对象，但torch.CUDA.is_available（）为False。如果您在只有CPU的机器上运行，请使用torch.load和map_location='pu'将您的存储映射到CPU。：torc.CUDA.is_available（）为False。pip list 查看torch版本，查看匹配的显卡驱动，显示正常。卸载torch，重新安装了包含cuda包的torch版本。软件：torch，显卡驱动，CUDA。查看CUDA版本，没有CUDA。

2023-09-23 01:39:04 7778 3

原创 conda常用指令

查看当前有哪些环境，有base环境。

2023-09-23 00:27:34 417

原创 win10修改截图快捷键

用惯了截图快捷键，在新电脑上截图不方便，win10自带截图功能，修改一下系统设置就能使用。鼠标放到截图工具图标，点击右键，选择。这样就好啦，快来试一下吧。

2023-09-19 21:42:56 371

原创 OpenAI Fine-Tuning（微调）

数据中提供的assistant messages应该是您希望的，模型提供的理想responses。3.在仍然需要Fine-Tuning的情况下，最初的prompt-engineering不会浪费，在微调数据中使用好的prompt(或者将prompt chaining/tool和Fine-Tuning结合)，有助于我们看到最好的结果。如果您已经优化过prompt，模型依然有明确的问题，即您确定了微调是正确方案，您需要准备训练模型的数据，您应该创建一组多样化的对话，这些对话类似于要求模型在推理后做出的响应。

2023-09-13 05:04:29 616

原创 GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

然而，他们的视觉语言对齐仅建立在图像级别上，缺乏区域级别对齐限制了他们在细粒度多模态理解方面的进步。将空间指令和语言嵌入提取的视觉特征的交错序列输入到LLM，并以指令调整格式对转换后的区域文本数据进行训练。创新点：将边界框转换为空间指令，利用大模型的识别、分析、推理能力，实现空间维度上的处理，支持区域级别的理解和多轮对话。背景：大规模语言模型在图像文本对上微调展现出令人惊讶的多模态表现，然而都是在图像级别的，缺少区域级别的多模态推理。相关技术：大规模语言模型、视觉语言模型、区域级别图像理解。

2023-09-11 22:58:01 357

原创 colab使用(基础入门)——随手记

挂载目录/content/drive参数：[-L] 跟踪重定向参数：[-o] --output ，-o imagebind_ckpt，下载文件保存为imagebind_ckpt安装Minicondacolab每次重启，运行中的文件会清空，建议下载文件保存在google drive上，打开时mount就能加载到。conda版本选择和对应的python版本匹配，有兴趣可参阅官方文档。查看conda版本，安装成功使用conda创建虚拟环境。

2023-09-07 15:39:19 533

原创 PandaGPT部署演示

PandaGPT 是一种通用的指令跟踪模型，可以看到和听到。实验表明，PandaGPT 可以执行复杂的任务，例如生成详细的图像描述、编写受视频启发的故事以及回答有关音频的问题。更有趣的是，PandaGPT 可以同时接受多模态输入并自然地组合它们的语义。例如，PandaGPT 可以连接对象在照片中的外观以及它们在音频中的声音。为此，PandaGPT 结合了 ImageBind 的多模式编码器和 Vicuna 的大型语言模型。

2023-09-07 15:33:34 545

原创 Llama-7b-hf和vicuna-7b-delta-v0合并成vicuna-7b-v0

最近使用pandagpt需要vicuna-7b-v0，重新过了一遍，前段时间部署了vicuna-7b-v3，还是有不少差别的，transforms和fastchat版本更新导致许多地方不匹配，出现很多错误，记录一下。

2023-09-04 14:24:51 2108 5

原创 huggingface下载模型文件（基础入门版）

huggingface下载模型文件（基础入门版）huggingface是一个网站，类似于github，上面拥有众多开源的模型、数据集等资料，人工智能爱好者可以很方便的上面获取需要的数据，也可以上传训练好的模型，制作的数据集等。本文只介绍下载模型的方法，适合新手入门，更多内容详情参考Download files from the Hub

2023-09-04 03:57:50 7226

原创 13 Dropout（丢弃法）

dropout可以看做一个正则项，所谓不合理的丢弃就是超参数丢弃概率没设置好，设置低了，可能过拟合，设高了，可能欠拟合，这个可以调。例如，模型a是一层128个参数的感知机，模型b有两层感知机，每层128个参数，dropout为0.5，实际效果往往模型2更好。动机：一个好的模型，需要对你的输入数据鲁棒，无论加入多少噪音都有稳定的输出。实际应用场景：一个更深，更复杂的模型，使用dropout往往效果更好。dropout正则项方法之一，深度学习崛起前，最早提出的算法。丢弃法：在层之间增加噪音，相当于正则。

2023-09-02 06:44:26 281

原创笔记本电脑看视频耳机很小，电脑声音开到最大了，视频声音开最大了，耳机声音还是很小

试试调下耳机声音。。。

2023-09-02 02:00:20 109

原创 12 权重衰退

如果我们让模型参数取很大的数值，可以用很复杂的模型来拟合红色的点，如果是二次或者三次函数，权重取的很大或者很小，可以造成一个非常不平滑的曲线。如果对模型取值限定在一个范围，不让学习复杂的模型，就会选择比较平滑的模型，例图中绿色的曲线。模型容量受参数个数和参数范围影响，通过L2正则项限制w的取值范围，权重w每次更新乘以小于1的数，w的数值范围不会太大，从而降低模型复杂度，减轻过拟合风险。lambd趋近无穷大，w的L2范式很少，参数w趋近于0。通过增加lambd，w的取值减小，让模型不那么复杂。

2023-09-02 01:45:08 143

原创 11 模型选择 + 过拟合和欠拟合

同时，泛化误差也在降低，可以看到当泛化误差过了一个临界点，泛化误差不降反增，处于过拟合状态，这个阈值点是理论的最优点。一个数据集分成K份，每次拿出1份做验证集，其余K-1份做训练集，共做K次训练，求得K次训练的平均精度。K-折交叉验证降低数据分布不均匀带来的误差，举一个极端的例子，K=10000，将数据集分成10000份，做10000次训练，求得平均误差，这样做充分利用了数据，同时也会付出高昂的成本。模型容量高，数据量复杂，可以学习到更多复杂的知识，往往具有较好的性能，这也是目前的一个方向。

2023-09-01 23:54:07 185

原创 06_Chain

总结：本节学习了langchain提出最重要的概念——chain，学习最基础的LLMchain用法，从langchainhub中加载链，让LLM开发变得更加轻松。下面以LLM-Math为例，介绍加载和使用langchainhub中的链，该链使用LLM和利用python REPL进行复杂数学运算的链。langchainhub是开源的社区，分享处理langchain的组件，包括prompt，Agent，chain。简单的应用场景单个LLM即可，面对复杂的应用场景，需要将多个LLM串联一起，协同工作。

2023-08-31 15:06:40 92

原创 05_Output_Parsers(输出解析器)

Langchain提供多种输出解析器

2023-08-22 22:12:11 386

原创 04. 提示词(Prompt)

本节介绍Prompt，langchain中提供PromptTemplate和Example Selector两种Prompt

2023-08-22 08:02:32 1276

原创 WTF Langchain极简入门: 03. 数据连接

当前有许多文本嵌入模型，如如OpenAI、Cohere、Hugging Face等，本文选用的是OpenAI的嵌入模型，也可以使用其他的模型。在基于长篇文本的问答(QA)系统中，必须将文本拆分为多个文本块，这样才能在数据搜索中，基于文本相似性匹配到与问题最相近的文本块。默认的参数是["\n\n"，"\n"，"，"]，它尽可能保证语义的完整性，保持段落、句子、单词的完整。嵌入模型对文本进行向量化，这种转化能够在向量空间中处理文本，通过向量空间的相似性，进行文本语义的搜索。拆分文档是最常见的文档转换操作。

2023-08-21 05:06:24 563

原创 02__models

介绍了LLM模型与聊天模型，以及两者的区别。使用langchain框架实现了与OpenAI LLM和聊天模型的对话

2023-08-18 11:06:43 180

原创 01_langchain

一家致力于人工智能的公司，是LLM模型生态圈的主要参与者，推出ChatGPT被人熟知，代表产品chatgpt-3.5，chatgpt-4.0，允许开发人员通过调用API接口访问模型。LLM的诞生推动了自然语言处理领域的变革，让以前无法实现的一些应用成为了可能。Langchain作为一个开源的开发框架，提供与OpenAI等模型的接口，简化了在应用程序中集成模型和利用模型推理能力的过程。总结：简单介绍了langchain和OpenAI，以及两者之间的联系。解决方法：绑定信用卡，购买新的份额。

2023-08-17 20:21:15 184

原创 Openai中的tokens怎么估计

大规模语言模型（LLM）的出现给自然语言处理领域带来了变革的可能性，Openai开放了chatgpt的API，方便了开发人员使用LLM的推理能力，注册时赠送5美元的使用额度，有效期3个月。如果想便捷的使用chatgpt的API，需要绑定信用卡，这个计费方式是按每1000个tokens计费。有兴趣进一步了解token如何工作，可以尝试复制文本粘贴即可显示tokens和characters数。

2023-08-16 20:04:05 1231

原创 THUDM/chatglm2-6b-int4部署实战

在CPU，最低需要约系统RAM约7G。针对这一问题，一些参数，体积相对小的开源模型出现，如LLama-，vicuna，chatglm出现，同时为了进一步方便部署，降低硬件要求，推出了量化版模型chatglm2-6b-int4。

2023-08-14 23:03:50 2087

原创 ubuntu积累

写到output.txt末尾。export PATH=$PATH:/usr/local/cuda-11.6/bin 将/usr/local/cuda-11.6/bin添加到环境变量。--base-model-path /path/to/llama-7b \ [\]续行符，命令太长，一行写不下，分割成两行。ln -snf /usr/local/cuda-11.6 /usr/local/cuda 软链接cuda重新链接到cuda-11.6。

2023-07-09 00:58:34 772

原创 ChatGLM2部署实战体验

ChatGPT在自然语言处理领域的表现让人振奋，开启了大模型在通用人工智能领域的大门。许多工作随之跟进，并开源，凭借相对小的参数量达到近似GPT的效果，包括LLama，alpace等。然而，这些模型大都对中文的支持能力相当有限，国内清华大学针对这个问题，扩充中文token，采用自建的中文语料库进行训练，生成ChatGLM2模型，较上一代ChatGLM1性能有了显著提升，在答复内容的可靠性和推理速度上都有了较大提升，目前的测试结果显示，ChatGLM2模型在中文的表现上优于Chatgpt。

2023-07-09 00:56:42 1707

原创 HFValidationError: Repo id must be in the form ‘repo_name‘ or ‘namespace/repo_name‘: ‘/root/vicuna-7

在测试vicuna-7b模型，推理时报错HFValidationError: Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/root/vicuna-7b-fastchat'. Use `repo_type` argument if needed。解决：修改模型路径，我的是模型名称输错了，请仔细核对模型路径。

2023-07-06 02:48:40 11242 2

原创 Fastchat安装vicuna-7b-v1.3（小羊驼） ——超详细版

下载好的vicuna-7b模型的地址，本地路径/root/vicuna-7b/vicuna-7b-delta-v11（lmsys/vicuna-7b-delta-v1.1意思是联网下载vicuna-7b-delta-v1.1）export PATH=$PATH:/usr/local/cuda-11.6/bin 将/usr/local/cuda-11.6/bin添加到环境变量。参数：--model_size是指定哪个参数级的模型，7B是70亿参数模型，还有13B/30B/65B的模型。

2023-07-06 01:53:29 4476 1

原创 llama-7B、vicuna-7b-delta-v1.1和vicuna-7b-v1.3——使用体验

动手体验了下Vicuna-7b，翻译过来是小羊驼」（骆马），拥有70亿参数，据作者实验能达到GPT-4的90%性能。python3 -m cli是python3执行cli.py文件，具体内容，要看cli.py写了什么。Chatgpt的出现给NLP领域带来了让人振奋的消息，可以很逼真的模拟人的对话，回答人们提出的问题，不过Chatgpt参数量，规模，训练代价都很昂贵。提问方式很重要：输入china，回答的只能说是相关，文字就少很多。幸运的是，出现了开源的一些相对小的模型，可以在本地或者云端部署体验，

2023-07-05 22:16:58 1653

FilterProDT软件下载和使用

空空如也