人工智能
文章平均质量分 66
计算机视觉(cv),大规模语言模型(LLM),多模态等
gasgrge
这个作者很懒,什么都没留下…
展开
-
Optimization
有助于optimization的方式:shuffling、dropout、gradient noise、warm up。CV领域多是SGD,NLP领域多是Adam。Adam:算的比较快,波动大。了解到的optimizer。原创 2024-02-27 16:11:59 · 455 阅读 · 0 评论 -
全连接层是什么
当前层有n个神经元,下一层有m个神经元,则全连接层,当前层的n个神经元和下一层m个神经元都有连接。当前层的每一个神经元,都和下一层的每一个神经元有连接,叫全连接层。原创 2024-02-26 23:08:10 · 513 阅读 · 0 评论 -
Batch和momentum
泛化性:small batch更多噪音,反而泛化性更好,large batch 泛化性更糟糕一些。没有并行计算的时候,small batch速度更快,large batch速度要慢一些。每一个epoch的时间,small batch更慢,large batch更快。梯度:small batch更多噪音,稳定性差,large batch更加稳定。优化:small batch优化更好,large batch优化更糟。有了并行计算的时候,两个速度相同。原创 2024-02-26 16:38:29 · 469 阅读 · 0 评论 -
如何通过training loss和testing loss判断问题的方向?
李宏毅老师给了课程实验的通关秘诀,如何判断深度学习目前遇到什么问题。原创 2024-02-26 15:21:08 · 598 阅读 · 0 评论 -
李宏毅2023机器学习作业1--homework1——模型创建
方便更新超参数,对模型进行参数调整。原创 2024-02-25 17:11:51 · 830 阅读 · 0 评论 -
李宏毅2023机器学习作业1--homework1——数据集操作
下载训练数据covid.train.csv测试数据covid.test.csv。原创 2024-02-25 15:50:27 · 631 阅读 · 0 评论 -
为什么需要验证数据集(validation set)
当我们在进行训练时,会不断地调整参数,降低训练集loss,期望模型无限逼近训练数据集,而这个过程会过拟合,模型在训练数据集上表现很好,在实际的测试集上泛化能力表现在变差。如果有了验证集,我们可以发现当验证集loss先降低,再升高时,这个时候模型可能就过拟合了,就没有必要再不断地优化下去,提醒我们什么时候会出现过拟合。原创 2024-02-23 18:49:34 · 503 阅读 · 0 评论 -
RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() i
意思:运行时错误:正在尝试反序列化CUDA设备上的对象,但torch.CUDA.is_available()为False。如果您在只有CPU的机器上运行,请使用torch.load和map_location='pu'将您的存储映射到CPU。:torc.CUDA.is_available()为False。pip list 查看torch版本,查看匹配的显卡驱动,显示正常。卸载torch,重新安装了包含cuda包的torch版本。软件:torch,显卡驱动,CUDA。查看CUDA版本,没有CUDA。原创 2023-09-23 01:39:04 · 10234 阅读 · 3 评论 -
OpenAI Fine-Tuning(微调)
数据中提供的assistant messages应该是您希望的,模型提供的理想responses。3.在仍然需要Fine-Tuning的情况下,最初的prompt-engineering不会浪费,在微调数据中使用好的prompt(或者将prompt chaining/tool和Fine-Tuning结合),有助于我们看到最好的结果。如果您已经优化过prompt,模型依然有明确的问题,即您确定了微调是正确方案,您需要准备训练模型的数据,您应该创建一组多样化的对话,这些对话类似于要求模型在推理后做出的响应。原创 2023-09-13 05:04:29 · 871 阅读 · 0 评论 -
colab使用(基础入门)——随手记
挂载目录/content/drive参数:[-L] 跟踪重定向参数:[-o] --output ,-o imagebind_ckpt,下载文件保存为imagebind_ckpt安装Minicondacolab每次重启,运行中的文件会清空,建议下载文件保存在google drive上,打开时mount就能加载到。conda版本选择和对应的python版本匹配,有兴趣可参阅官方文档。查看conda版本,安装成功使用conda创建虚拟环境。原创 2023-09-07 15:39:19 · 725 阅读 · 0 评论 -
PandaGPT部署演示
PandaGPT 是一种通用的指令跟踪模型,可以看到和听到。实验表明,PandaGPT 可以执行复杂的任务,例如生成详细的图像描述、编写受视频启发的故事以及回答有关音频的问题。更有趣的是,PandaGPT 可以同时接受多模态输入并自然地组合它们的语义。例如,PandaGPT 可以连接对象在照片中的外观以及它们在音频中的声音。为此,PandaGPT 结合了 ImageBind 的多模式编码器和 Vicuna 的大型语言模型。原创 2023-09-07 15:33:34 · 798 阅读 · 0 评论 -
Llama-7b-hf和vicuna-7b-delta-v0合并成vicuna-7b-v0
最近使用pandagpt需要vicuna-7b-v0,重新过了一遍,前段时间部署了vicuna-7b-v3,还是有不少差别的,transforms和fastchat版本更新导致许多地方不匹配,出现很多错误,记录一下。原创 2023-09-04 14:24:51 · 2815 阅读 · 7 评论 -
huggingface下载模型文件(基础入门版)
huggingface下载模型文件(基础入门版)huggingface是一个网站,类似于github,上面拥有众多开源的模型、数据集等资料,人工智能爱好者可以很方便的上面获取需要的数据,也可以上传训练好的模型,制作的数据集等。本文只介绍下载模型的方法,适合新手入门,更多内容详情参考Download files from the Hub原创 2023-09-04 03:57:50 · 9256 阅读 · 0 评论 -
云平台——九天•毕昇使用体验
随着人工智能的发展,算力资源越来越重要,云平台的发展日新月异,推出了按需使用,一键部署等特性,这对于开发使用者来说是个好消息,不需要自己从零搭建硬件设备,减轻环境搭建配置和维护。中国移动推出了九天•毕昇,致力于打造一站式人工智能学习和实战平台,教育版提供免费使用的CPU和GPU计算资源,人工智能竞赛,还有学习教程供,使用一段时间,记录下感受。原创 2023-07-02 05:17:16 · 2075 阅读 · 4 评论 -
12 权重衰退
如果我们让模型参数取很大的数值,可以用很复杂的模型来拟合红色的点,如果是二次或者三次函数,权重取的很大或者很小,可以造成一个非常不平滑的曲线。如果对模型取值限定在一个范围,不让学习复杂的模型,就会选择比较平滑的模型,例图中绿色的曲线。模型容量受参数个数和参数范围影响,通过L2正则项限制w的取值范围,权重w每次更新乘以小于1的数,w的数值范围不会太大,从而降低模型复杂度,减轻过拟合风险。lambd趋近无穷大,w的L2范式很少,参数w趋近于0。通过增加lambd,w的取值减小,让模型不那么复杂。原创 2023-09-02 01:45:08 · 186 阅读 · 0 评论 -
11 模型选择 + 过拟合和欠拟合
同时,泛化误差也在降低,可以看到当泛化误差过了一个临界点,泛化误差不降反增,处于过拟合状态,这个阈值点是理论的最优点。一个数据集分成K份,每次拿出1份做验证集,其余K-1份做训练集,共做K次训练,求得K次训练的平均精度。K-折交叉验证降低数据分布不均匀带来的误差,举一个极端的例子,K=10000,将数据集分成10000份,做10000次训练,求得平均误差,这样做充分利用了数据,同时也会付出高昂的成本。模型容量高,数据量复杂,可以学习到更多复杂的知识,往往具有较好的性能,这也是目前的一个方向。原创 2023-09-01 23:54:07 · 210 阅读 · 0 评论 -
06_Chain
总结:本节学习了langchain提出最重要的概念——chain,学习最基础的LLMchain用法,从langchainhub中加载链,让LLM开发变得更加轻松。下面以LLM-Math为例,介绍加载和使用langchainhub中的链,该链使用LLM和利用python REPL进行复杂数学运算的链。langchainhub是开源的社区,分享处理langchain的组件,包括prompt,Agent,chain。简单的应用场景单个LLM即可,面对复杂的应用场景,需要将多个LLM串联一起,协同工作。原创 2023-08-31 15:06:40 · 124 阅读 · 0 评论 -
05_Output_Parsers(输出解析器)
Langchain提供多种输出解析器原创 2023-08-22 22:12:11 · 557 阅读 · 0 评论 -
04. 提示词(Prompt)
本节介绍Prompt,langchain中提供PromptTemplate和Example Selector两种Prompt原创 2023-08-22 08:02:32 · 1475 阅读 · 0 评论 -
WTF Langchain极简入门: 03. 数据连接
当前有许多文本嵌入模型,如如OpenAI、Cohere、Hugging Face等,本文选用的是OpenAI的嵌入模型,也可以使用其他的模型。在基于长篇文本的问答(QA)系统中, 必须将文本拆分为多个文本块,这样才能在数据搜索中,基于文本相似性匹配到与问题最相近的文本块。默认的参数是["\n\n","\n",","],它尽可能保证语义的完整性,保持段落、句子、单词的完整。嵌入模型对文本进行向量化,这种转化能够在向量空间中处理文本,通过向量空间的相似性,进行文本语义的搜索。拆分文档是最常见的文档转换操作。原创 2023-08-21 05:06:24 · 693 阅读 · 0 评论 -
02__models
介绍了LLM模型与聊天模型,以及两者的区别。使用langchain框架实现了与OpenAI LLM和聊天模型的对话原创 2023-08-18 11:06:43 · 280 阅读 · 0 评论 -
Openai中的tokens怎么估计
大规模语言模型(LLM)的出现给自然语言处理领域带来了变革的可能性,Openai开放了chatgpt的API,方便了开发人员使用LLM的推理能力,注册时赠送5美元的使用额度,有效期3个月。如果想便捷的使用chatgpt的API,需要绑定信用卡,这个计费方式是按每1000个tokens计费。有兴趣进一步了解token如何工作,可以尝试复制文本粘贴即可显示tokens和characters数。原创 2023-08-16 20:04:05 · 1830 阅读 · 0 评论 -
01_langchain
一家致力于人工智能的公司,是LLM模型生态圈的主要参与者,推出ChatGPT被人熟知,代表产品chatgpt-3.5,chatgpt-4.0,允许开发人员通过调用API接口访问模型。LLM的诞生推动了自然语言处理领域的变革,让以前无法实现的一些应用成为了可能。Langchain作为一个开源的开发框架,提供与OpenAI等模型的接口,简化了在应用程序中集成模型和利用模型推理能力的过程。总结:简单介绍了langchain和OpenAI,以及两者之间的联系。解决方法:绑定信用卡,购买新的份额。原创 2023-08-17 20:21:15 · 239 阅读 · 0 评论 -
THUDM/chatglm2-6b-int4部署实战
在CPU,最低需要约系统RAM约7G。针对这一问题,一些参数,体积相对小的开源模型出现,如LLama-,vicuna,chatglm出现,同时为了进一步方便部署,降低硬件要求,推出了量化版模型chatglm2-6b-int4。原创 2023-08-14 23:03:50 · 2407 阅读 · 0 评论 -
ChatGLM2部署实战体验
ChatGPT在自然语言处理领域的表现让人振奋,开启了大模型在通用人工智能领域的大门。许多工作随之跟进,并开源,凭借相对小的参数量达到近似GPT的效果,包括LLama,alpace等。然而,这些模型大都对中文的支持能力相当有限,国内清华大学针对这个问题,扩充中文token,采用自建的中文语料库进行训练,生成ChatGLM2模型,较上一代ChatGLM1性能有了显著提升,在答复内容的可靠性和推理速度上都有了较大提升,目前的测试结果显示,ChatGLM2模型在中文的表现上优于Chatgpt。原创 2023-07-09 00:56:42 · 1833 阅读 · 0 评论 -
HFValidationError: Repo id must be in the form ‘repo_name‘ or ‘namespace/repo_name‘: ‘/root/vicuna-7
在测试vicuna-7b模型,推理时报错HFValidationError: Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/root/vicuna-7b-fastchat'. Use `repo_type` argument if needed。解决:修改模型路径,我的是模型名称输错了,请仔细核对模型路径。原创 2023-07-06 02:48:40 · 15404 阅读 · 2 评论 -
Fastchat安装vicuna-7b-v1.3(小羊驼) ——超详细版
下载好的vicuna-7b模型的地址,本地路径/root/vicuna-7b/vicuna-7b-delta-v11(lmsys/vicuna-7b-delta-v1.1意思是联网下载vicuna-7b-delta-v1.1)export PATH=$PATH:/usr/local/cuda-11.6/bin 将/usr/local/cuda-11.6/bin添加到环境变量。参数:--model_size是指定哪个参数级的模型,7B是70亿参数模型,还有13B/30B/65B的模型。原创 2023-07-06 01:53:29 · 5200 阅读 · 1 评论 -
llama-7B、vicuna-7b-delta-v1.1和vicuna-7b-v1.3——使用体验
动手体验了下Vicuna-7b,翻译过来是小羊驼」(骆马),拥有70亿参数,据作者实验能达到GPT-4的90%性能。python3 -m cli是python3执行cli.py文件,具体内容,要看cli.py写了什么。Chatgpt的出现给NLP领域带来了让人振奋的消息,可以很逼真的模拟人的对话,回答人们提出的问题,不过Chatgpt参数量,规模,训练代价都很昂贵。提问方式很重要:输入china,回答的只能说是相关,文字就少很多。幸运的是,出现了开源的一些相对小的模型,可以在本地或者云端部署体验,原创 2023-07-05 22:16:58 · 2088 阅读 · 0 评论