自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 资源 (1)
  • 收藏
  • 关注

原创 Optimization

有助于optimization的方式:shuffling、dropout、gradient noise、warm up。CV领域多是SGD,NLP领域多是Adam。Adam:算的比较快,波动大。了解到的optimizer。

2024-02-27 16:11:59 357

原创 全连接层是什么

当前层有n个神经元,下一层有m个神经元,则全连接层,当前层的n个神经元和下一层m个神经元都有连接。当前层的每一个神经元,都和下一层的每一个神经元有连接,叫全连接层。

2024-02-26 23:08:10 428

原创 Batch和momentum

泛化性:small batch更多噪音,反而泛化性更好,large batch 泛化性更糟糕一些。没有并行计算的时候,small batch速度更快,large batch速度要慢一些。每一个epoch的时间,small batch更慢,large batch更快。梯度:small batch更多噪音,稳定性差,large batch更加稳定。优化:small batch优化更好,large batch优化更糟。有了并行计算的时候,两个速度相同。

2024-02-26 16:38:29 397

原创 如何通过training loss和testing loss判断问题的方向?

李宏毅老师给了课程实验的通关秘诀,如何判断深度学习目前遇到什么问题。

2024-02-26 15:21:08 413

原创 李宏毅2023机器学习作业1--homework1——python语法

字符串格式化:字符串中允许使用花括号{ },来引入变量或者表达式。pandas.read_csv读取数据。加上花括号{},就能在字符串里表示。

2024-02-25 17:13:52 359

原创 李宏毅2023机器学习作业1--homework1——模型创建

方便更新超参数,对模型进行参数调整。

2024-02-25 17:11:51 658

原创 李宏毅2023机器学习作业1--homework1——数据集操作

下载训练数据covid.train.csv测试数据covid.test.csv。

2024-02-25 15:50:27 487

原创 李宏毅2023机器学习作业1--homework1

下载训练数据和测试数据导入包定义一些功能函数配置项。

2024-02-23 22:21:02 883 1

原创 为什么需要验证数据集(validation set)

当我们在进行训练时,会不断地调整参数,降低训练集loss,期望模型无限逼近训练数据集,而这个过程会过拟合,模型在训练数据集上表现很好,在实际的测试集上泛化能力表现在变差。如果有了验证集,我们可以发现当验证集loss先降低,再升高时,这个时候模型可能就过拟合了,就没有必要再不断地优化下去,提醒我们什么时候会出现过拟合。

2024-02-23 18:49:34 381

原创 llama-7B、vicuna-7b-delta-v1.1和vicuna-7b-v1.3——使用体验

动手体验了下Vicuna-7b,翻译过来是小羊驼」(骆马),拥有70亿参数,据作者实验能达到GPT-4的90%性能。python3 -m cli是python3执行cli.py文件,具体内容,要看cli.py写了什么。Chatgpt的出现给NLP领域带来了让人振奋的消息,可以很逼真的模拟人的对话,回答人们提出的问题,不过Chatgpt参数量,规模,训练代价都很昂贵。提问方式很重要:输入china,回答的只能说是相关,文字就少很多。幸运的是,出现了开源的一些相对小的模型,可以在本地或者云端部署体验,

2023-11-06 18:43:22 805 1

原创 RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() i

意思:运行时错误:正在尝试反序列化CUDA设备上的对象,但torch.CUDA.is_available()为False。如果您在只有CPU的机器上运行,请使用torch.load和map_location='pu'将您的存储映射到CPU。:torc.CUDA.is_available()为False。pip list 查看torch版本,查看匹配的显卡驱动,显示正常。卸载torch,重新安装了包含cuda包的torch版本。软件:torch,显卡驱动,CUDA。查看CUDA版本,没有CUDA。

2023-09-23 01:39:04 7778 3

原创 conda常用指令

查看当前有哪些环境,有base环境。

2023-09-23 00:27:34 417

原创 win10修改截图快捷键

用惯了截图快捷键,在新电脑上截图不方便,win10自带截图功能,修改一下系统设置就能使用。鼠标放到截图工具图标,点击右键,选择。这样就好啦,快来试一下吧。

2023-09-19 21:42:56 371

原创 OpenAI Fine-Tuning(微调)

数据中提供的assistant messages应该是您希望的,模型提供的理想responses。3.在仍然需要Fine-Tuning的情况下,最初的prompt-engineering不会浪费,在微调数据中使用好的prompt(或者将prompt chaining/tool和Fine-Tuning结合),有助于我们看到最好的结果。如果您已经优化过prompt,模型依然有明确的问题,即您确定了微调是正确方案,您需要准备训练模型的数据,您应该创建一组多样化的对话,这些对话类似于要求模型在推理后做出的响应。

2023-09-13 05:04:29 616

原创 GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

然而,他们的视觉语言对齐仅建立在图像级别上,缺乏区域级别对齐限制了他​​们在细粒度多模态理解方面的进步。将空间指令和语言嵌入提取的视觉特征的交错序列输入到LLM,并以指令调整格式对转换后的区域文本数据进行训练。创新点:将边界框转换为空间指令,利用大模型的识别、分析、推理能力,实现空间维度上的处理,支持区域级别的理解和多轮对话。背景:大规模语言模型在图像文本对上微调展现出令人惊讶的 多模态表现,然而都是在图像级别的,缺少区域级别的多模态推理。相关技术:大规模语言模型、视觉语言模型、区域级别图像理解。

2023-09-11 22:58:01 357

原创 colab使用(基础入门)——随手记

挂载目录/content/drive参数:[-L] 跟踪重定向参数:[-o] --output ,-o imagebind_ckpt,下载文件保存为imagebind_ckpt安装Minicondacolab每次重启,运行中的文件会清空,建议下载文件保存在google drive上,打开时mount就能加载到。conda版本选择和对应的python版本匹配,有兴趣可参阅官方文档。查看conda版本,安装成功使用conda创建虚拟环境。

2023-09-07 15:39:19 533

原创 PandaGPT部署演示

PandaGPT 是一种通用的指令跟踪模型,可以看到和听到。实验表明,PandaGPT 可以执行复杂的任务,例如生成详细的图像描述、编写受视频启发的故事以及回答有关音频的问题。更有趣的是,PandaGPT 可以同时接受多模态输入并自然地组合它们的语义。例如,PandaGPT 可以连接对象在照片中的外观以及它们在音频中的声音。为此,PandaGPT 结合了 ImageBind 的多模式编码器和 Vicuna 的大型语言模型。

2023-09-07 15:33:34 545

原创 Llama-7b-hf和vicuna-7b-delta-v0合并成vicuna-7b-v0

最近使用pandagpt需要vicuna-7b-v0,重新过了一遍,前段时间部署了vicuna-7b-v3,还是有不少差别的,transforms和fastchat版本更新导致许多地方不匹配,出现很多错误,记录一下。

2023-09-04 14:24:51 2108 5

原创 huggingface下载模型文件(基础入门版)

huggingface下载模型文件(基础入门版)huggingface是一个网站,类似于github,上面拥有众多开源的模型、数据集等资料,人工智能爱好者可以很方便的上面获取需要的数据,也可以上传训练好的模型,制作的数据集等。本文只介绍下载模型的方法,适合新手入门,更多内容详情参考Download files from the Hub​

2023-09-04 03:57:50 7226

原创 13 Dropout(丢弃法)

dropout可以看做一个正则项,所谓不合理的丢弃就是超参数丢弃概率没设置好,设置低了,可能过拟合,设高了,可能欠拟合,这个可以调。例如,模型a是一层128个参数的感知机,模型b有两层感知机,每层128个参数,dropout为0.5,实际效果往往模型2更好。动机:一个好的模型,需要对你的输入数据鲁棒,无论加入多少噪音都有稳定的输出。实际应用场景:一个更深,更复杂的模型,使用dropout往往效果更好。dropout正则项方法之一,深度学习崛起前,最早提出的算法。丢弃法:在层之间增加噪音,相当于正则。

2023-09-02 06:44:26 281

原创 笔记本电脑看视频耳机很小,电脑声音开到最大了,视频声音开最大了,耳机声音还是很小

试试调下耳机声音。。。

2023-09-02 02:00:20 109

原创 12 权重衰退

如果我们让模型参数取很大的数值,可以用很复杂的模型来拟合红色的点,如果是二次或者三次函数,权重取的很大或者很小,可以造成一个非常不平滑的曲线。如果对模型取值限定在一个范围,不让学习复杂的模型,就会选择比较平滑的模型,例图中绿色的曲线。模型容量受参数个数和参数范围影响,通过L2正则项限制w的取值范围,权重w每次更新乘以小于1的数,w的数值范围不会太大,从而降低模型复杂度,减轻过拟合风险。lambd趋近无穷大,w的L2范式很少,参数w趋近于0。通过增加lambd,w的取值减小,让模型不那么复杂。

2023-09-02 01:45:08 143

原创 11 模型选择 + 过拟合和欠拟合

同时,泛化误差也在降低,可以看到当泛化误差过了一个临界点,泛化误差不降反增,处于过拟合状态,这个阈值点是理论的最优点。一个数据集分成K份,每次拿出1份做验证集,其余K-1份做训练集,共做K次训练,求得K次训练的平均精度。K-折交叉验证降低数据分布不均匀带来的误差,举一个极端的例子,K=10000,将数据集分成10000份,做10000次训练,求得平均误差,这样做充分利用了数据,同时也会付出高昂的成本。模型容量高,数据量复杂,可以学习到更多复杂的知识,往往具有较好的性能,这也是目前的一个方向。

2023-09-01 23:54:07 185

原创 06_Chain

总结:本节学习了langchain提出最重要的概念——chain,学习最基础的LLMchain用法,从langchainhub中加载链,让LLM开发变得更加轻松。下面以LLM-Math为例,介绍加载和使用langchainhub中的链,该链使用LLM和利用python REPL进行复杂数学运算的链。langchainhub是开源的社区,分享处理langchain的组件,包括prompt,Agent,chain。简单的应用场景单个LLM即可,面对复杂的应用场景,需要将多个LLM串联一起,协同工作。

2023-08-31 15:06:40 92

原创 05_Output_Parsers(输出解析器)

Langchain提供多种输出解析器

2023-08-22 22:12:11 386

原创 04. 提示词(Prompt)

本节介绍Prompt,langchain中提供PromptTemplate和Example Selector两种Prompt

2023-08-22 08:02:32 1276

原创 WTF Langchain极简入门: 03. 数据连接

当前有许多文本嵌入模型,如如OpenAI、Cohere、Hugging Face等,本文选用的是OpenAI的嵌入模型,也可以使用其他的模型。在基于长篇文本的问答(QA)系统中, 必须将文本拆分为多个文本块,这样才能在数据搜索中,基于文本相似性匹配到与问题最相近的文本块。默认的参数是["\n\n","\n",","],它尽可能保证语义的完整性,保持段落、句子、单词的完整。嵌入模型对文本进行向量化,这种转化能够在向量空间中处理文本,通过向量空间的相似性,进行文本语义的搜索。拆分文档是最常见的文档转换操作。

2023-08-21 05:06:24 563

原创 02__models

介绍了LLM模型与聊天模型,以及两者的区别。使用langchain框架实现了与OpenAI LLM和聊天模型的对话

2023-08-18 11:06:43 180

原创 01_langchain

一家致力于人工智能的公司,是LLM模型生态圈的主要参与者,推出ChatGPT被人熟知,代表产品chatgpt-3.5,chatgpt-4.0,允许开发人员通过调用API接口访问模型。LLM的诞生推动了自然语言处理领域的变革,让以前无法实现的一些应用成为了可能。Langchain作为一个开源的开发框架,提供与OpenAI等模型的接口,简化了在应用程序中集成模型和利用模型推理能力的过程。总结:简单介绍了langchain和OpenAI,以及两者之间的联系。解决方法:绑定信用卡,购买新的份额。

2023-08-17 20:21:15 184

原创 Openai中的tokens怎么估计

大规模语言模型(LLM)的出现给自然语言处理领域带来了变革的可能性,Openai开放了chatgpt的API,方便了开发人员使用LLM的推理能力,注册时赠送5美元的使用额度,有效期3个月。如果想便捷的使用chatgpt的API,需要绑定信用卡,这个计费方式是按每1000个tokens计费。有兴趣进一步了解token如何工作,可以尝试复制文本粘贴即可显示tokens和characters数。

2023-08-16 20:04:05 1231

原创 THUDM/chatglm2-6b-int4部署实战

在CPU,最低需要约系统RAM约7G。针对这一问题,一些参数,体积相对小的开源模型出现,如LLama-,vicuna,chatglm出现,同时为了进一步方便部署,降低硬件要求,推出了量化版模型chatglm2-6b-int4。

2023-08-14 23:03:50 2087

原创 ubuntu积累

写到output.txt末尾。export PATH=$PATH:/usr/local/cuda-11.6/bin 将/usr/local/cuda-11.6/bin添加到环境变量。--base-model-path /path/to/llama-7b \ [\]续行符,命令太长,一行写不下,分割成两行。ln -snf /usr/local/cuda-11.6 /usr/local/cuda 软链接cuda重新链接到cuda-11.6。

2023-07-09 00:58:34 772

原创 ChatGLM2部署实战体验

ChatGPT在自然语言处理领域的表现让人振奋,开启了大模型在通用人工智能领域的大门。许多工作随之跟进,并开源,凭借相对小的参数量达到近似GPT的效果,包括LLama,alpace等。然而,这些模型大都对中文的支持能力相当有限,国内清华大学针对这个问题,扩充中文token,采用自建的中文语料库进行训练,生成ChatGLM2模型,较上一代ChatGLM1性能有了显著提升,在答复内容的可靠性和推理速度上都有了较大提升,目前的测试结果显示,ChatGLM2模型在中文的表现上优于Chatgpt。

2023-07-09 00:56:42 1707

原创 HFValidationError: Repo id must be in the form ‘repo_name‘ or ‘namespace/repo_name‘: ‘/root/vicuna-7

在测试vicuna-7b模型,推理时报错HFValidationError: Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/root/vicuna-7b-fastchat'. Use `repo_type` argument if needed。解决:修改模型路径,我的是模型名称输错了,请仔细核对模型路径。

2023-07-06 02:48:40 11242 2

原创 Fastchat安装vicuna-7b-v1.3(小羊驼) ——超详细版

下载好的vicuna-7b模型的地址,本地路径/root/vicuna-7b/vicuna-7b-delta-v11(lmsys/vicuna-7b-delta-v1.1意思是联网下载vicuna-7b-delta-v1.1)export PATH=$PATH:/usr/local/cuda-11.6/bin 将/usr/local/cuda-11.6/bin添加到环境变量。参数:--model_size是指定哪个参数级的模型,7B是70亿参数模型,还有13B/30B/65B的模型。

2023-07-06 01:53:29 4476 1

原创 llama-7B、vicuna-7b-delta-v1.1和vicuna-7b-v1.3——使用体验

动手体验了下Vicuna-7b,翻译过来是小羊驼」(骆马),拥有70亿参数,据作者实验能达到GPT-4的90%性能。python3 -m cli是python3执行cli.py文件,具体内容,要看cli.py写了什么。Chatgpt的出现给NLP领域带来了让人振奋的消息,可以很逼真的模拟人的对话,回答人们提出的问题,不过Chatgpt参数量,规模,训练代价都很昂贵。提问方式很重要:输入china,回答的只能说是相关,文字就少很多。幸运的是,出现了开源的一些相对小的模型,可以在本地或者云端部署体验,

2023-07-05 22:16:58 1653

原创 云平台——九天•毕昇使用体验

随着人工智能的发展,算力资源越来越重要,云平台的发展日新月异,推出了按需使用,一键部署等特性,这对于开发使用者来说是个好消息,不需要自己从零搭建硬件设备,减轻环境搭建配置和维护。中国移动推出了九天•毕昇,致力于打造一站式人工智能学习和实战平台,教育版提供免费使用的CPU和GPU计算资源,人工智能竞赛,还有学习教程供,使用一段时间,记录下感受。

2023-07-02 05:17:16 1277 4

原创 ubuntu18.04将python3设置为默认的python版本

如果您的Linux系统中同时安装了多个Python版本,您可以使用update-alternatives命令切换默认Python版本。这个命令将把/usr/bin/python链接到/usr/bin/python3,并把python3优先级设置为20(也就是默认Python版本)。首先,请确认您已经安装了需要的Python版本和相关依赖项。

2023-06-22 12:00:00 890 1

原创 ubuntu命令

输入ls -al,可以看到[drwxrwxrwx],[-rwxrwxrwx],共10个参数。接下来就简单了:r==>可读 w==>可写 x==>可执行。8-10参数:属于others。查看ubuntu主机ip地址。5-7参数:属于group。第一个参数无关,暂时不管。2-4参数:属于user。192开头的是本机地址。7代表可读可写可执行。用户提升root权限。

2023-06-22 11:56:31 1084

原创 windows自带的linux系统(wsl),从C盘迁移到D盘

2. 在D盘建linux目录,打包Ubuntu-18.04,导入到D盘的linux目录。本人电脑装的是Ubuntu-18.04,正在运行,版本1。默认情况wsl在后台运行,占用系统资源,空闲时可以关闭。wsl --list, -l 用于列出分发。3. 4.注销当前Ubuntu-18.04。4. 重新导入Ubuntu-18.04。1. 查看当前wsl版本和 运行状态。打开cmd,输入bash,等几秒。

2023-06-22 08:54:48 1688

FilterProDT软件下载和使用

滤波器的设计软件FilterProDT和FilterProDT软件使用文档

2015-01-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除