NLP/LLMs
文章平均质量分 85
本文章主要分享自然语言技术及其大语言模型领域的知识和案例,理论知识与实战案例相互结合。NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。
一个处女座的程序猿
人工智能硕博学历,拥有十多项发明专利(6项)和软著(9项),包括国际期刊SCI内多篇论文,多个国家级证书(2个国三级、3个国四级),曾获国内外“人工智能算法”竞赛(包括国家级省市级等,一等奖5项、二等奖4项、三等奖2项)证书十多项,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。目前也是国内知名博主,连续3年获CSDN十大博客之星,荣获达摩院评测官、阿里社区/CSDN社区/51CTO/华为社区等十多个开发者社区专家博主荣誉,曾受邀阿里/华为/谷歌等社区采访-评审-论坛几十次。截止2022年,AI领域粉丝超100万,文章阅读量超5000万。正在撰写《AI算法最新实战》一书,目前已30万字
展开
-
Py之langchainhub:langchainhub的简介、安装和使用方法、案例应用之详细攻略
Py之langchainhub:langchainhub的简介、安装和使用方法、案例应用之详细攻略目录langchainhub的简介langchainhub的安装和使用方法langchainhub的案例应用langchainhub的简介LangChainHub 受 Hugging Face Hub 启发,是一个收集所有与 LangChain 原语(如提示、链和代理)一起使用的有用工件的集合。该存储库的目标是成为共享和发现高质量提示、链和代理的中心资源,这些元素结合在一起形成原创 2024-04-17 02:15:01 · 880 阅读 · 0 评论 -
LangChain之Agent:LangChain框架中与Agent相关的概念简介、Agent分类(五大维度分类/8种代理)、常用函数、案例应用之详细攻略
LangChain之Agent:LangChain框架中与Agent相关的概念简介、Agent分类(五大维度分类/8种代理)、常用函数、案例应用之详细攻略目录LangChain框架中与Agent相关的概念简介、Agent分类(五大维度分类/8种代理)、常用函数、案例应用之详细攻略LangChain框架中与Agent相关的概念简介LangChain框架中Agent的分类LangChain框架中与Agent相关的常用函数LangChain框架中与Agent相关的案原创 2024-04-17 02:59:44 · 577 阅读 · 0 评论 -
LLMs之ToolAgent:基于LangChain框架(+LangSmith跟踪)来创建一个能够利用工具(如搜索引擎和文档检索器)以及参考聊天历史信息来响应用户输入的代理——定义工具转换为AGent
LLMs之Agent之Tool Calling Agent:基于LangChain框架(+LangSmith跟踪)来创建一个能够利用工具(如搜索引擎和文档检索器)以及参考聊天历史信息来响应用户输入的代理——定义工具转换为AGent格式并创建工具列表(Tavily【在线搜索】和和Retriever【本地检索】)→创建Agent(定义llm【ChatOpenAI+温度为0】和prompt+定义Agent【使用LLM、Prompt和Tools来初始化Agent】+定义Agent执行器【思考这些组件】)→创建并原创 2024-04-17 01:38:15 · 852 阅读 · 0 评论 -
LangChain之ChatModel:基于LangChain框架中的ChatModel的功能简介、各种ChatModel的增强功能列表(是否支持,异步/流式/工具调用/结构化输出)之详细攻略
LangChain之ChatModel:基于LangChain框架中的ChatModel的功能简介、各种ChatModel的增强功能列表(是否支持,异步/流式/工具调用/结构化输出)之详细攻略目录ChatModel聊天模型ChatModel聊天模型特性(原生支持):异步、流式、批量所有聊天模型都实现了Runnable接口,该接口带有所有方法的默认实现,即ainvoke、batch、abatch、stream、astream。这使得所有聊天模型都能基本支持异步、流式传输和批量处理,默认原创 2024-04-15 01:43:25 · 878 阅读 · 0 评论 -
LLMs之LangChain:LangChain(开发和构建)、LangSmith(生产化/跟踪)、LangServe(部署为API)的基础使用案例教程—利用LangChain开发和构建LLM的应用程
LLMs之LangChain:LangChain(开发和构建)、LangSmith(生产化/跟踪)、LangServe(部署为API)的基础使用案例教程—利用LangChain开发和构建LLM的应用程序(构建LLM链/检索链/对话检索链/构建Agent)代码实现教程之详细攻略目录LangChain(开发和构建)、LangSmith(生产化/跟踪)、LangServe(部署为API)的基础使用案例教程—利用LangChain开发和构建LLM的应用程序(构建LLM链/检索链/对话检索链/构建Agen原创 2024-04-11 01:25:10 · 954 阅读 · 0 评论 -
LLMs之FineTuning:LLaMA-Factory框架中如何在 dataset_info.json 中自定义alpaca 格式/sharegpt 格式数据集及其示例演示
LLMs之FineTuning:LLaMA-Factory框架中如何在 dataset_info.json 中通过指定--dataset dataset_name参数→实现自定义alpaca 格式/sharegpt 格式数据集及各部分字段的对应关系→以便正确读取和利用数据集内容训练模型目录LLaMA-Factory框架中如何在 dataset_info.json 中通过指定--dataset dataset_name参数→实现自定义alpaca 格式/sharegpt 格式原创 2024-04-08 22:25:50 · 866 阅读 · 0 评论 -
LLMs之ChatGLM3:ChatGLM3源码解读(inference_hf.py)微调模型实现基于用户指定模型的目录和提示实现模型生成的响应——利用Typer和Transformers库构建了一个
LLMs之ChatGLM3:ChatGLM3源码解读(inference_hf.py)微调模型实现基于用户指定模型的目录和提示实现模型生成的响应——利用Typer和Transformers库构建了一个命令行工具,可以方便地加载预训练的语言模型并进行对话生成目录ChatGLM3源码解读(inference_hf.py)微调模型实现基于用户指定模型的目录和提示实现模型生成的响应——利用Typer和Transformers库构建了一个命令行工具,可以方便地加载预训练的语言模型并进行对话生成# 1、原创 2024-02-22 23:55:04 · 16 阅读 · 0 评论 -
LLMs之ChatGLM3:ChatGLM3源码解读(finetune_hf.py)微调模型实现生成任务——初始化模型训练环境→加载数据→配置模型→微调训练模型(支持SFT/Ptuning_v2/Lo
LLMs之ChatGLM3:ChatGLM3源码解读(finetune_hf.py)微调模型实现生成任务——初始化模型训练环境→加载数据→配置模型→微调训练模型(支持SFT/Ptuning_v2/LoRA+可从检查点恢复)→模型评估(BLEU/ROUGE等)目录ChatGLM3源码解读(finetune_hf.py)微调模型实现生成任务——初始化模型训练环境→加载数据→配置模型→微调训练模型(支持SFT/Ptuning_v2/LoRA+可从检查点恢复)→模型评估(BLEU/ROUGE等)#原创 2024-03-03 23:52:02 · 425 阅读 · 0 评论 -
LLMs:文本生成任务常用的评估指标(BLEU/ROUGE等)的简介(核心原理+实现思路+实现代码)、使用方法、案例应用之详细攻略
LLMs:文本生成任务常用的评估指标(BLEU/ROUGE等)的简介(核心原理+实现思路+实现代码)、使用方法、案例应用之详细攻略目录文本生成任务常用的评估指标(BLEU/ROUGE等)的简介BLEU(评估机器翻译)ROUGE(评估文本摘要)基于ChatGLM3的微调代码中实现compute_metrics函数来计算评估指标,如BLEU机器翻译和ROUGE自动文摘等文本生成任务常用的评估指标(BLEU/ROUGE等)的使用方法文本生成任务常用的评估指标(BLEU/ROUG原创 2020-01-14 22:51:53 · 383 阅读 · 1 评论 -
LLMs之Morphic:Morphic(一款具有生成式用户界面的人工智能答案引擎)的简介、安装、使用方法之详细攻略
LLMs之Morphic:Morphic(一款具有生成式用户界面的人工智能答案引擎)的简介、安装、使用方法之详细攻略目录Morphic的简介1、技术栈Morphic的安装和使用方法1、克隆仓库2、安装依赖3、填写密钥4、本地运行应用部署Morphic的简介2024年4月初发布,Morphic是一款具有生成式用户界面的人工智能答案引擎。1、技术栈应用框架:Next.js文本流处理 / 生成式用户界面:Vercel AI SDK原创 2024-04-10 02:24:16 · 1183 阅读 · 0 评论 -
LLMs:datawhalechina/self-llm( 基于AutoDL平台+针对各类开源大模型提供环境配置、本地部署、高效微调等技能在内的全流程指导)的简介、使用方法、案例应用之详细攻略
LLMs:datawhalechina/self-llm( 基于AutoDL平台+针对各类开源大模型提供环境配置、本地部署、高效微调等技能在内的全流程指导)的简介、使用方法、案例应用之详细攻略目录开源大模型食用指南开源大模型食用指南 本项目是一个围绕开源大模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普原创 2024-01-01 00:16:15 · 976 阅读 · 0 评论 -
LLMs之ToolAlpaca:ToolAlpaca(通用工具学习框架/工具使用语料库)的简介、安装和使用方法、案例应用之详细攻略
LLMs之ToolAlpaca:ToolAlpaca(通用工具学习框架/工具使用语料库)的简介、安装和使用方法、案例应用之详细攻略目录ToolAlpaca的简介ToolAlpaca的安装和使用方法ToolAlpaca的案例应用ToolAlpaca的简介2023年6月8日,中国科学院发布ToolAlpaca,ToolAlpaca是一个面向紧凑语言模型的3000个模拟案例的通用工具学习框架,旨在最小化人工监督的情况下,在紧凑语言模型中学习通用工具使用能力。它通原创 2024-04-11 00:28:24 · 1752 阅读 · 1 评论 -
LLMs之Keras CodeGemma:Keras CodeGemma的简介、安装和使用方法、案例应用之详细攻略
LLMs之Keras CodeGemma:Keras CodeGemma的简介、安装和使用方法、案例应用之详细攻略目录Keras CodeGemma的简介Keras CodeGemma的安装和使用方法Keras CodeGemma的案例应用Keras CodeGemma的简介2024年4月9日,Google发布CodeGemma ,CodeGemma 是 Gemma 的开放版本系列,专注于代码。CodeGemma 是由谷歌推出的一系列代码专家原创 2024-04-10 02:28:06 · 1666 阅读 · 0 评论 -
LLMs之LLaMA:LLaMA的简介、安装和使用方法、案例应用之详细攻略
LLMs之LLaMA:LLaMA的简介、安装和使用方法、案例应用之详细攻略导读:2023年2月25日,Meta公开发布LLaMA,并提出了一系列开源的基础NLP模型——LLaMA模型,重点解决了目前许多模型依赖于专有数据集等资源的问题。>> 背景痛点:许多现有的模型如GPT-3、PaLM等依赖于不可公开获取的专有数据集进行训练,不利于开源和研究。>> 解决方案:本研究通过仅使用公开数据集,训练出不同规模的LLaMA模型,其中LLaMA-13B的性能超过了175B的参数的GPT-3,LLaMA-6原创 2023-03-14 23:27:07 · 4353 阅读 · 2 评论 -
LLM之ollama:ollama的简介、安装和使用方法、案例应用之详细攻略
LLM之ollama:ollama的简介、安装和使用方法、案例应用之详细攻略目录ollama的简介ollama的安装和使用方法ollama的案例应用ollama的简介ollama是一款可以开始使用本地的大型语言模型。启动并运行大型语言模型。运行Llama 2、Code Llama和其他模型。自定义并创建您自己的模型。官网:OllamaGitHub地址:GitHub - ollama/ollama: Get up and原创 2024-04-05 01:57:56 · 1707 阅读 · 0 评论 -
LLM之LM studio:LM studio的简介、安装和使用方法、案例应用之详细攻略
LLM之LM studio:LM studio的简介、安装和使用方法、案例应用之详细攻略目录LM Studio的简介LM Studio的安装和使用方法LM Studio的案例应用LM Studio的简介LM Studio的口号是发现、下载并运行本地 LLMs。LM Studio 是一款桌面应用程序,可在您的计算机上运行本地大型语言模型(LLMs)。官网:LM Studio - Discover, download, and run local原创 2024-04-05 01:56:14 · 1407 阅读 · 0 评论 -
LLM之FreeAskInternet:FreeAskInternet的简介、安装和使用方法、案例应用之详细攻略
LLM之FreeAskInternet:FreeAskInternet的简介、安装和使用方法、案例应用之详细攻略目录FreeAskInternet的简介FreeAskInternet的安装和使用方法FreeAskInternet的案例应用FreeAskInternet的简介2024年4月5日发布,FreeAskInternet 是一个完全免费、私密且在本地运行的搜索聚合器和答案生成器,使用 LLM,无需 GPU。用户可以提出问题,系统将使用 searxng 进行多引擎搜索原创 2024-04-05 23:32:49 · 1639 阅读 · 2 评论 -
LLMs之FreeGPT35:FreeGPT35的简介、安装和使用方法、案例应用之详细攻略
LLMs之FreeGPT35:FreeGPT35的简介、安装和使用方法、案例应用之详细攻略目录FreeGPT35的简介FreeGPT35的安装和使用方法FreeGPT35的案例应用FreeGPT35的简介2024年4月3日,发布了FreeGPT35,这是一款利用无需登录的ChatGPT Web提供的无限免费GPT-3.5-Turbo API服务。GitHub地址:GitHub - missuo/FreeGPT35: Utilize the unlimit原创 2024-04-05 01:55:05 · 1615 阅读 · 0 评论 -
LLMs之PPL:解读多个权威文档(比如huggingface)中对PPL(困惑度)的定义、PPL的多种计算方式、多种代码实现
LLMs之PPL:解读多个权威文档(比如huggingface)中对PPL(困惑度)的定义、PPL的多种计算方式、代码实现目录Chinese-LLaMA-Alpaca-2项目中的PPL代码实现两种近似算法计算固定长度语言模型的困惑度文章地址:https://huggingface.co/docs/transformers/perplexityPerplexity of fixed-length models固定长度模型困困惑度PPL是GPT-St原创 2024-04-04 23:46:54 · 1073 阅读 · 1 评论 -
Transformer之MQA:多查询注意力(Multi-Query Attention,MQA)的概述(论文+原理等)、代码实现、案例应用之详细攻略
Transformer之MQA:MQA的概述、代码实现、案例应用之详细攻略目录相关论文《Fast Transformer Decoding: One Write-Head is All You Need》翻译与解读AbstractMQA技术的概述MQA的代码实现T1、MQA在 llm-foundry 中的实现MQA的案例应用相关论文《Fast Transformer Decoding: One Write-Head is All You Need原创 2020-03-05 22:51:29 · 747 阅读 · 1 评论 -
LLMs之DBRX:DBRX的简介、安装和使用方法、案例应用之详细攻略
LLMs之DBRX:DBRX的简介、安装和使用方法、案例应用之详细攻略目录DBRX的简介DBRX的安装和使用方法DBRX的案例应用DBRX的简介2024年3月27日(美国时间),DBRX是Databricks开发的一款开放源码的 Transformer 结构的大规模语言模型,它使用了混合专家(MoE) 架构,总参数量为132B,活跃参数为36B。DBRX经过12兆字训练数据预训练,相比先前开源大模型具有质量和效率双赢。DB原创 2024-03-28 23:13:20 · 2907 阅读 · 0 评论 -
LLMs之Mistral:Mistral 7B v0.2的简介、安装和使用方法、案例应用之详细攻略
LLMs之Mistral:Mistral 7B v0.2的简介、安装和使用方法、案例应用之详细攻略目录Mistral 7B v0.2的简介Mistral 7B v0.2的安装和使用方法Mistral 7B v0.2的案例应用Mistral 7B v0.2的简介2024年3月24日,Mistral 7B v0.2 Base是用于训练Mistral-7B-Instruct-v0.2的原始预训练模型。官网:Mistral 7B | Mistral AI | Front原创 2024-03-27 02:13:23 · 1464 阅读 · 0 评论 -
LLMs之Grok-1.5:Grok-1.5的简介、安装和使用方法、案例应用之详细攻略
LLMs之Grok-1.5:Grok-1.5的简介、安装和使用方法、案例应用之详细攻略目录Grok-1.5的简介Grok-1.5的安装和使用方法Grok-1.5的案例应用Grok-1.5的简介2024年3月28日(美国时间),xAI以“迅雷不及掩耳之势”正式发布Grok-1.5。Grok-1.5具备改进的推理能力和128K令牌的上下文长度。即将在X平台上推出。Grok-1.5,是xAI最新的模型,能够理解长篇上下文和进行高级推理。Grok-1.5将在原创 2024-03-29 22:41:12 · 2120 阅读 · 2 评论 -
AI:AI-For-Beginners(Microsoft的人工智能课程=符号AI+神经网络+计算机视觉+自然语言处理)的简介、使用方法之详细攻略
AI:AI-For-Beginners(Microsoft的人工智能课程=符号AI+神经网络+计算机视觉+自然语言处理)的简介、使用方法之详细攻略目录AI-For-Beginners(Microsoft课程)的简介AI-For-Beginners(Microsoft课程)的使用方法AI-For-Beginners(Microsoft课程)的简介探索微软的12周、24课时的课程,进入人工智能的世界!深入了解符号AI、神经网络、计算机视觉、自然语言处理等。动手实验、测验和实验室增原创 2024-03-18 23:58:04 · 1042 阅读 · 0 评论 -
LLMs之ChatGLM3:inference.py文件解读—实现一个简单的基于ChatGLM3的交互式语言模型+根据用户输入文本生成相应的响应
LLMs之ChatGLM3:inference.py文件解读—实现一个简单的基于ChatGLM3的交互式语言模型+根据用户输入文本生成相应的响应目录inference.py文件解读—实现一个简单的基于ChatGLM3的交互式语言模型+根据用户输入文本生成相应的响应全部代码inference.py文件解读—实现一个简单的基于ChatGLM3的交互式语言模型+根据用户输入文本生成相应的响应# 1、命令行参数解析和设置:使用 argparse 库解析命令行参数,其中包括模原创 2023-12-17 00:42:33 · 322 阅读 · 0 评论 -
LLMs之ChatGLM3:解读ChatGLM3-6B模型微调(多卡全量微调/单卡P-Tuning v2微调)所有sh脚本文件(finetune_ds.sh /finetune_pt.sh、finet
LLMs之ChatGLM3:解读ChatGLM3-6B模型微调(多卡全量微调/单卡P-Tuning v2微调)所有sh脚本文件(finetune_ds.sh /finetune_pt.sh、finetune_ds_multiturn.sh/finetune_pt_multiturn.sh)—实现基于PyTorch框架分布式训练并采用混合精度训练+梯度累积等技术微调训练大型语言模型目录1、基于简单输入/输出数据集的微调ChatGLM3-6B2、基于多轮对话数据集的微调ChatGLM3-6原创 2023-12-07 00:45:38 · 347 阅读 · 0 评论 -
LLMs之ChatGLM3:finetune.py文件解读—基于数据集(多轮对话格式/输入-输出格式)来微调ChatGLM3-6B模型来适应特定的任务(如对话系统)—参数解析和配置→加载预训练模型和分
LLMs之ChatGLM3:finetune.py文件解读—基于数据集(多轮对话格式/输入-输出格式)来微调ChatGLM3-6B模型来适应特定的任务(如对话系统)—参数解析和配置→加载预训练模型和分词器(P-tuning v2技术+模型量化技术)→数据预处理(支持不同格式的训练数据【多轮对话格式/输入-输出格式】)→初始化数据收集器和训练器→模型训练(基于PyTorch分布式框架+梯度累积+梯度检查点技术等,显存21G/对比推理需要13G)目录finetune.py文件解读—基于数据集(多轮对原创 2023-12-14 01:29:24 · 347 阅读 · 0 评论 -
LLMs之Grok-1:runners.py文件解读—基于JAX和设备分布的预训练语言模型inference服务+支持批量查询+利用设备资源高效推理同时可以被嵌入训练循环进行微调训练
LLMs之Grok-1:runners.py文件解读—基于JAX和设备分布的预训练语言模型inference服务+支持批量查询+利用设备资源高效推理同时可以被嵌入训练循环进行微调训练目录LLMs之Grok-1:runners.py文件解读—基于JAX和设备分布的预训练语言模型inference服务+支持批量查询+利用设备资源高效推理同时可以被嵌入训练循环进行微调训练runners.py文件解读—基于JAX和设备分布的预训练语言模型inference服务+支持批量查询+利用设备资源高效推理同时原创 2024-03-27 00:14:06 · 1155 阅读 · 2 评论 -
LLMs之Grok-1:checkpoint.py文件解读—加载和恢复机器学习模型检查点的工具(基于JAX库处理多维数组计算+大规模分布式训练+多主机间的数据同步和分片)
LLMs之Grok-1:checkpoint.py文件解读—加载和恢复机器学习模型检查点的工具(基于JAX库处理多维数组计算+大规模分布式训练+多主机间的数据同步和分片)目录checkpoint.py文件解读—加载和恢复机器学习模型检查点的工具(基于JAX库处理多维数组计算+大规模分布式训练+多主机间的数据同步和分片)checkpoint.py文件解读—加载和恢复机器学习模型检查点的工具(基于JAX库处理多维数组计算+大规模分布式训练+多主机间的数据同步和分片)全部代码原创 2024-03-27 00:13:41 · 1387 阅读 · 2 评论 -
LLMs之Grok-1:model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算
LLMs之Grok-1:model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算目录model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算全部代码model.py文件解读—实现了基于Transformer的预训练语言模型+利用JAX框架支持高性能分布式计算源码地址:grok-1/model.py at main · xai-org/grok-1原创 2024-03-24 00:33:57 · 1159 阅读 · 0 评论 -
LLMs之Grok-1:run.py文件解读—运行语言模型实现推理—即基于用户的输入文本利用grok_1语言模型来生成文本
LLMs之Grok-1:run.py文件解读—运行语言模型实现推理—即基于用户的输入文本利用grok_1语言模型来生成文本目录run.py文件解读—运行语言模型实现推理—即基于用户的输入文本利用grok_1语言模型来生成文本全部代码run.py文件解读—运行语言模型实现推理—即基于用户的输入文本利用grok_1语言模型来生成文本源码地址:grok-1/run.py at main · xai-org/grok-1 · GitHub概述这段代码使用了一个预训练的语言原创 2024-03-23 01:51:33 · 1750 阅读 · 0 评论 -
LLMs之Gemma:sampling_tutorial.ipynb文件解读——利用预训练的Gemma模型进行自然语言采样生成
LLMs之Gemma:sampling_tutorial.ipynb文件解读——利用预训练的Gemma模型进行自然语言采样生成目录相关文章主要步骤如下所示开始使用Gemma采样:分步指南安装使用你的模型开始生成相关文章LLMs之Gemma:Gemma(Google开发的新一代领先的开源模型)的简介、安装、使用方法之详细攻略https://yunyaniu.blog.csdn.net/article/details/136221970主要步骤如下所示>> 加原创 2024-03-26 02:05:06 · 1170 阅读 · 1 评论 -
LLMs之Gemma:fine_tuning_tutorial.ipynb文件解读——利用fine-tuning方法调优2B的Gemma模型实现英法翻译任务
LLMs之Gemma:fine_tuning_tutorial.ipynb文件解读——利用fine-tuning方法调优2B的Gemma模型实现英法翻译任务目录fine_tuning_tutorial.ipynb文件解读——利用fine-tuning方法调优2B的Gemma模型实现英法翻译任务主要步骤利用flax对2B Gemma模型进行微调Setup步骤1:准备数据集微调Gemma模型fine_tuning_tutorial.ipynb文件解读——利用fin原创 2024-03-17 23:56:13 · 1458 阅读 · 0 评论 -
LLMs之Gemma:gsm8k_eval.ipynb文件解读——通过构建基于问题-答案对的 prompting 模式来评估Gemma模型在GSM8K数据集上的表现水平
LLMs之Gemma:gsm8k_eval.ipynb文件解读——通过构建基于问题-答案对的 prompting 模式来评估Gemma模型在GSM8K数据集上的表现水平目录核心步骤使用Gemma对GSM8K进行评估一、安装与下载二、加载模型、数据集进行模型评估核心步骤>> 通过Kaggle下载Gemma模型的权重文件,作为本次评估的基础模型。>> 加载和预处理GSM8K数据集,将训练集和测试集分离。>> 定义一些辅助函数,如找出字符串中的数字,提取答案等。原创 2024-02-22 23:55:41 · 1071 阅读 · 0 评论 -
LLMs之Gemma:sampling.py文件解读—利用Gemma库加载预训练模型、分词器,并进行文本采样,用户通过指定命令行参数(如输入的字符串、生成的最大步数)来控制生成过程
LLMs之Gemma:sampling.py文件解读—利用Gemma库加载预训练模型、分词器,并进行文本采样,用户通过指定命令行参数(如输入的字符串、生成的最大步数)来控制生成过程目录sampling.py文件解读—利用Gemma库加载预训练模型、分词器,并进行文本采样,用户通过指定命令行参数(如输入的字符串、生成的最大步数)来控制生成过程全部代码sampling.py文件解读—利用Gemma库加载预训练模型、分词器,并进行文本采样,用户通过指定命令行参数(如输入的字符串、生成原创 2024-02-28 23:23:53 · 609 阅读 · 0 评论 -
DL之Transformer:《The Annotated Transformer带注释的变压器》的翻译与解读—思路步骤及实现代码
DL之Transformer:《The Annotated Transformer带注释的变压器》的翻译与解读—包括代码目录《The Annotated Transformer》的翻译与解读导言背景第1部分:模型体系结构第2部分:模型训练第3部分:一个真实世界的例子结果结论《The Annotated Transformer》的翻译与解读地址GitHub地址:GitHub原创 2023-12-16 01:16:31 · 561 阅读 · 0 评论 -
VGM之Sora:Open-Sora的简介、安装和使用方法、案例应用之详细攻略
VGM之Sora:Open-Sora的简介、安装和使用方法、案例应用之详细攻略目录Open-Sora的简介Open-Sora的安装和使用方法Open-Sora的案例应用Open-Sora的简介2024年3月18日,Colossal-AI团队重磅发布Open-Sora项目是一项致力于高效制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。 通过采用开源原则,Open-Sora 不仅实现了先进视频生成技术的低成本普及,还提供了一个精简且用户友好的方案,简原创 2024-03-20 00:06:54 · 1489 阅读 · 0 评论 -
LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略
LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略目录Grok-1的简介Grok-1的安装Grok-1的使用方法Grok-1的简介2024年3月17日(当地时间),马斯克的AI创企xAI重磅发布了Grok-1的基础模型权重和网络架构,这是一款大型语言模型。Grok-1是一个3140亿参数的专家混合模型,远超OpenAI GPT-3.5的1750亿。由xAI从头开始训练。这是Grok-1预训练阶段的原始基础模型检查点,该阶段于2023年10月结束。这原创 2024-03-19 01:14:52 · 5943 阅读 · 2 评论 -
AI之Devin:Devin(被称为第一个完全自主的AI软件工程师)的简介、技术报告解读、使用方法之详细攻略
AI之Devin:Devin(被称为第一个完全自主的AI软件工程师)的简介、技术报告解读、使用方法之详细攻略目录Devin的简介Devin的技术报告Devin的使用方法Devin的简介2024年3月12日,Cognition AI 团队发布了第一个AI软件工程师Devin,并在SWE-bench编码基准测试中设立了新的技术标杆,被称为世界上第一个完全自主的AI软件工程师。Devin是一个不知疲倦的、技术娴熟的队友,他既可以和你一起构建,也可以独立完成任务,供你审核。有原创 2024-03-15 23:52:30 · 2023 阅读 · 0 评论 -
XAI之TDB:transformer-debugger的简介、安装和使用方法、应用案例之详细攻略
XAI之TDB:transformer-debugger的简介、安装和使用方法、应用案例之详细攻略目录transformer-debugger的简介transformer-debugger的安装和使用方法transformer-debugger应用案例transformer-debugger的简介2024年3月12日,Transformer Debugger(TDB)是由OpenAI的Superalignment团队开发的工具,旨在支持对小型语言模型特原创 2024-03-13 22:44:53 · 1547 阅读 · 0 评论