- 博客(52)
- 收藏
- 关注
原创 抖音豆包大模型SFT-监督微调最佳实践
在自然语言处理(NLP)领域,Supervised Finetuning(SFT)是一种至关重要的技术手段,用来提升大模型在某一特定领域的表现。通过精细的策划和实施,SFT 能够指导模型的学习过程,确保其学习成果与既定目标高度吻合。SFT 指的是,用户提供一份标注好的数据集,即,包含输入的 prompt 和预期输出的 response。然后,在已有的某个基座模型上继续调整参数,来达到和下游任务对齐的目的。
2024-09-13 09:06:40
2236
原创 魔搭开源移动端框架Mobile-Agent-v2抢先体验
每步操作时,必须跟踪当前任务的进展,即了解先前完成的要求,从而推断出依据用户指令进行的下一步操作。随后,通过对操作失败任务的分析(如下图所示),作者发现Mobile-Agent在任务后期失败的操作占比较高,而Mobile-Agent-v2则显示出更均匀的失败分布,这表明Mobile-Agent-v2在处理长序列任务方面更为有效。类似的工作,在今年二月份,由阿里通义实验室提出的手机端智能体开源框架Mobile-Agent,即可实现一句指令输入,AI可以作为智能中枢,根据指令在手机上自动规划和操作各种APP。
2024-06-12 10:48:00
1144
原创 阿里AI代码大模型-通义灵码又偷偷升级?
最近,在使用阿里开发的通义灵码大模型时,我萌生了一个想法:考虑到通义灵码会持续进化升级,它是否会与Qwen(阿里云的预训练语言模型)的更新保持同步呢?带着好奇,我尝试提出了一些问题来测试,结果通义灵码的反馈相当出色。这激发了我进一步的兴趣,决定组织一场“智能对话模型比拼”,参赛者阵容包括:通义灵码、通义千问2.5的网页版本、讯飞星火的网页版本,以及OpenAI的两大热门——ChatGPT4和ChatGPT3.5。本次对比从网上寻找了5个问题测试。
2024-06-05 19:36:07
1383
原创 智谱AI GLM4开源!快速上手体验
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突出能力。
2024-06-05 18:32:25
3520
原创 基于魔搭开源推理引擎 DashInfer实现CPU服务器大模型推理--实战篇
CPU推理大模型,引擎dashinfer 我在win下pip install 一直失败,不知道是不是我环境的问题,还是本身包不支持win。在单NUMA CPU上进行单NUMA推理不需要特殊的权限和配置。(1)内存占用情况,我这个使用的1.8b的模型占用内存大概在8-15g左右。TensorFlow官方的建议是不使用,可能会存在冲突,所以可能需要卸载。在多NUMA节点的CPU上,若只需要1个NUMA节点进行推理,需要用。使用单NUMA推理,需要将模型配置文件中的。使用多NUMA推理,需要将模型配置文件中的。
2024-05-30 15:08:54
1628
原创 基于魔搭开源推理引擎 DashInfer实现CPU服务器大模型推理--理论篇
CPU推理,大模型cpu部署,,仅需要最小程度的第三方依赖,并采用静态链接的方式引用依赖库。提供C++和Python接口,让DashInfer可以轻松集成到您的系统和其他编程语言中。DashInfer经过严格的精度测试,能够提供与PyTorch、GPU引擎(vLLM)一致的推理精度。优化的计算Kernel:结合OneDNN和自研汇编kernel,DashInfer能够在ARM和x86上发挥硬件的最大性能。
2024-05-28 14:31:26
1701
原创 Python调用讯飞星火大模型v3.x api接口使用教程2.0(python sdk,支持图片理解)
本篇文章是针对星火大模型api接口使用的新篇章,本次主要是介绍对于pythonSDK使用,以及图片理解等新功能。相对于上篇博客中的使用方法,本次的教程相对来说更简单方便。话不多说,直接享用。Python调用讯飞星火大模型v3, api接口使用教程 ,星火api,Python调用,
2024-05-20 11:56:33
3778
5
原创 基于SWIFT框架的Phi-3推理、微调实战教程
近期, Microsoft 推出 Phi-3,这是 Microsoft 开发的一系列开放式 AI 模型。Phi-3 模型是一个功能,在各种语言、推理、编码和数学基准测试中,在同级别参数模型中性能表现优秀。为开发者构建生成式人工智能应用程序时提供了更多实用的选择。从今天开始,(参数量3.8B)发布,可在魔搭社区上下载使用:Phi-3-mini 有两种上下文长度变体 - 4K 和 128K 令牌,支持128K 个令牌的上下文窗口的模型。
2024-05-07 10:46:14
1646
原创 微软开源最强小参数大模型—Phi-3 Mini
在未来几周内还会发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型。据悉,Phi-3-mini是微软Phi家族的第4代,有预训练和指令微调多种模型,参数只有38亿训练数据却高达3.3T tokens,比很多数百亿参数的模型训练数据都要多,这也是其性能超强的主要原因之一。2023年12月,微软在Phi-1.5基础之上开发了Phi-2,参数只有27亿并且在没有人类反馈强化学习和指令微调的情况下,击败了130亿参数的Llama-2和70亿参数的Mistral;
2024-05-07 10:26:06
930
原创 魔搭社区通义千问110B模型推理、微调最佳实践
首个千亿级模型来袭,Qwen1.5-110B,今天发布了base和chat模型,量化模型和GGUF模型也将会发布。Qwen1.5-110B相比72B效果有很大的提升,该提升主要来自模型规模的提升。Qwen1.5-110B和最近发布的SOTA模型Llama-3-70B的性能上相比不分伯仲,未来通义千问团队将会探索模型规模提升和扩展预训练数据规模两种方法同时带来的优势,请大家期待Qwen2!
2024-05-06 17:13:23
1262
原创 千亿大模型来了!通义千问110B模型开源!
敬请期待Qwen2!近期,在开源社区中,一系列具有千亿参数规模的大模型陆续出现,这些模型在各类评测中取得了卓越的成绩。该模型在基础能力评估中与Meta-Llama3-70B相媲美,并在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。下面是关于基础语言模型效果的评估,并与最近的SOTA语言模型Meta-Llama3-70B以及Mixtral-8x22B进行了比较。与之前发布的Qwen1.5-72B模型相比,在两个Chat模型的基准评估中,110B表现显著更好。
2024-05-06 16:55:01
815
原创 Leonardo 推出新的图片样式指南,实现精确控制图片生成!
对于设计师来说,这个功能可以帮助他们更好地控制设计的视觉风格,无论是在设计连环画还是制作海报时,都能够确保视觉的一致性。通过允许用户上传自定义图片,平台能够更准确地捕捉到用户想要的风格和视觉效果,从而生成更符合用户需求的图片内容。此外,付费用户还可以享受到更多的功能设置,包括样式参考、深度、边缘、草图、姿势、法线、图案、QR、艺术线条等,这些功能都可以帮助他们更好地控制图片生成的过程,实现更好的视觉效果。通过上传参考图片,他们可以更好地控制广告的视觉风格,从而吸引更多的目标用户。感兴趣的小伙伴去试试吧。
2024-04-21 15:21:55
554
1
原创 Llama 3大模型发布!快速体验推理及微调
Meta,一家全球知名的科技和社交媒体巨头,在其官方网站上正式宣布了一款开源的大型预训练语言模型——Llama-3。据了解,Llama-3模型提供了两种不同参数规模的版本,分别是80亿参数和700亿参数。这两种版本分别针对基础的预训练任务以及指令微调任务进行优化。此外,还有一个参数超过4000亿的版本,目前仍在积极训练中。
2024-04-21 15:19:58
2379
3
原创 元象4.2B参数 MoE大模型实战
近期,元象公司推出了其首个Moe大模型XVERSE-MoE-A4.2B。该模型采用了混合专家模型架构(Mixture of Experts),并拥有4.2B的激活参数,其性能可与13B模型相媲美。值得一提的是,这个模型是完全开源的,可以无条件免费商用,这对于中小企业、研究者和开发者来说无疑是一个巨大的福音。他们可以在元象高性能“全家桶”中按需选用,以推动低成本部署。在元象自研的过程中,他们在相同的语料上训练了2.7万亿token。
2024-04-11 14:10:23
325
1
原创 8卡微调Grok-1实战教程
本文是根据魔搭社区推出的轻量级训练推理工具SWIFT微调实战教程。SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是一套基于PyTorch的轻量级、开箱即用的模型微调、推理框架,让AI爱好者能够轻松地在消费级显卡上运行大模型和AIGC。Grok-1是一个具有314B参数的基础模型,由于采用了Rust+JAX框架构建,与transformers生态不兼容,导致使用其进行微调训练的成本较高。
2024-04-11 09:37:01
783
1
原创 Cohere推出全新升级版RAG大型AI模型:支持中文,搭载1040亿参数,现开源其权重!
在Gomez的观点中,强大的语言模型不仅仅是生成文本的工具,对于企业而言,它们就像一台“动力引擎”,可以作为核心逻辑推理引擎,助力复杂业务流程的自动执行,其功能与机器人流程自动化(RPA)相似。综上所述,RAG架构通过结合先进的搜索技术和大型语言模型的能力,为各种应用场景提供了强大的支持,从对话式AI和内容创建,到处理搜索引擎中的复杂查询,都体现了其多功能性和实用性。,RAG作为目前大模型厂商必备模块之一,Command R+对该功能进行了深度强化,在提升生成内容的准确的同时,极大减少了模型的“幻觉”。
2024-04-10 19:18:05
970
原创 2万亿训练数据!Stable LM 2-12B加入开源队列
通过这些训练策略的应用,Stability.ai能够有效地训练出性能强大的Stable LM 2 12B/1.6B模型,同时保证了训练的效率和模型的质量。通过在这些数据集上的预训练,Stable LM 2 12B/1.6B能够吸收和学习到大量的知识和语言模式,从而提高其在多种自然语言处理任务中的表现。模型微调阶段,Stability.ai使用了监督微调(SFT)、直接偏好优化(DPO)和自我知识学习三种方法,对生成的文本进行排序,然后使用排序结果来调整模型的参数,使其生成更符合人类偏好的文本。
2024-04-10 19:01:01
429
1
原创 真·人工智障!“弱智贴吧”竟被用来训练大模型
离了个大谱,弱智吧登上正经AI论文,还成了最好的中文训练数据?中国科学院、北京大学、中国科学技术大学、滑铁卢大学以及01.ai等十家知名机构联合推出了一款专注于中文的高质量指令调优数据集——COIG-CQIA。
2024-04-10 18:49:09
1040
原创 Suno AI音乐生成!人人都是作曲家
Suno AI,这个革命性的人工智能音乐创作平台,是全球领先的科技创新企业Anthropic以及相关尖端科研团队经过深入研发和精心打磨的成果。该解决方案以创新的视角,将尖端的人工智能技术与艺术创作领域深度融合,为音乐创作开辟了全新的领域,赋予用户前所未有的音频内容生成能力。在技术架构上,Suno AI巧妙地运用了先进的深度学习算法和复杂的神经网络模型,构建了一种强大的智能化音乐创作引擎。
2024-04-02 14:51:59
1017
原创 StreamingT2V文本生成视频多模态大模型,即将开源!
传统视频模型一直受训练数据、算法等困扰,最多只能生成10秒视频。Sora的出现将文生视频领域带向了一个全新的高度,突破了诸多技术瓶颈,仅通过文本就能生成最多1分钟的视频。而StreamingT2V采用了创新的自回归技术框架,通过条件注意力、外观保持和随机混合三大模块,极大的延长了视频的时间,同时保证动作的连贯性。简单来说,StreamingT2V使用了一种“击鼓传花”的方法,每一个模块通过提取前一个视频块中的表示特征,来保证动作一致性、文本语义还原、视频完整性等。条件注意力模块。
2024-04-02 14:36:07
1904
原创 告别人工智能韭菜课,来GitHub免费学大模型
现在网络上各种卖课的真是太多了,而且大多都是垃圾内容,所以大家一定要认真辨别。对于像LLM这类的内容,在GitHub或者开放途径是有着大量学习资料,完全没有必要花钱买。如果你说你不想阅读,就想听人给你讲,那就没法子了。
2024-03-19 18:10:21
892
原创 马斯克旗下xAI正式宣布开源大模型Grok-1
根据xAI公布的数据,在GSM8K、HumanEval和MMLU等一系列基准测试中,Grok-1的表现超过了Llama-2-70B和GPT-3.5,虽然跟GPT-4还差得远。Grok最初的版本Grok-0拥有330亿参数,紧接着xAI推出了经过数次改进的Grok-1,为X上的Grok聊天机器人提供支持。但此次xAI并没有放出Grok-1的具体测试成绩,其与OpenAI即将发布的GPT-5的大模型王者之战,必将成为业内关注的焦点。连OpenAI的员工,都表示了自己对Grok的强烈兴趣。官网放出的信息如下——
2024-03-19 09:06:09
1332
原创 阿里EMO模型:AI生成表情丰富的视频
EMO模型是阿里巴巴智能计算研究院通过深度学习技术研发的一款强大的视频生成工具。它能够仅凭一张静态图片和一段语音,生成具有丰富表情和真实头部动作的视频,从而打破传统视频制作的局限。阿里发布了一个大模型的展示页面,提出了一个名叫的大模型,一种富有表现力的音频驱动的基于人物肖像生成视频的框架。具体来讲就是,输入单个参考人物肖像图像和语音(例如讲话或者唱歌等),可以生成具有丰富的面部表情和各种头部姿势的声音头像视频,同时可以根据输入视频的长度生成任意持续时间的视频。
2024-03-16 11:49:27
2392
原创 手把手教你从零搭建自己的知识库
Word2Vec是一种用于处理自然语言处理的模型,它是在2013年由Google的研究员Mikolov等人首次提出的。Word2Vec通过训练海量的文本数据,能够将每个单词转换为一个具有一定维度的向量。这个向量就可以代表这个单词的语义。因为这个向量是在大量语境中学到的,所以这个向量能很好的表达这个单词的语义。Word2Vec包括Skip-Gram和CBOW两种模型,主要是通过优化模型计算词与词之间的关系,从而获得词的向量表示。Skip-Gram模型是通过一个词预测其上下文。
2024-03-16 11:38:00
1962
原创 机器学习之客户违约预测模型搭建之案例实战
客户违约预测模型的目的是通过已有的客户信息和违约表现来搭建合适的模型,从而预测之后的客户是否会违约。首先通过pandas库读取数据相关知识读取客户的证信数据以及其交易表现,即是否违约记录,代码如下:运行结果如下表所示,其中共有1000组历史数据,其中前400个为违约客户数据,后600个为非违约客户数据。因为Python数学建模中无法识别文本内容,所以“性别”及“是否违约”栏中的内容已经进行了数值处理,其中“性别”栏中0表示男,1表示女,“是否违约”栏中0表示不违约,1。
2024-03-16 11:10:27
1654
2
原创 机器学习之客户违约预测模型搭建之原理篇
在传统金融领域,往往存在两方角色,一方为借钱的借款方,另一方则为借钱给别人的贷款方,而作为贷款方则非常关心借款方是否会违约,即借钱不还。有的借款方可能完全就是抱着借钱不还的心态去借的资金,而对于这些客户,则需要搭建一套客户违约预测模型,根据借款人的各方面特征,来训练出合适的模型进行违约概率预测,从而在源头上拒绝这些潜在违约客户。如果还有其他的变量,比如说“年龄”、“性别”等,也是通过类似的手段计算划分后的系统的基尼系数,来看如何进行节点的划分,从而搭建一个较为完善的决策树模型。
2024-03-16 10:51:01
1276
原创 一文带你了解机器学习
机器学习是人工智能的一个分支,它涉及使用算法和数据来训练模型,使模型能够自动从数据中学习并做出预测或决策。机器学习的核心思想是通过对数据的分析和处理,提取出数据中的模式和规律,并将这些模式和规律转化为模型的参数,从而使模型能够自动地对新的数据进行预测或决策。
2024-03-16 10:39:35
933
原创 五步炼丹,qwen通义千问1.5版本微调实战
通用千问微调,lora微调,qwen1.5微调,通义千问1.5微调,最近阿里大模型通义千问qwen推出了1.5版本的开源模型,涉及了0.5B, 1.8B, 4B, 7B, 14B, 及72b在内的多种参数模型与量化模型因此本篇文章是基于一个开源大模型微调训练工具包使用lora对qwen1.5的,但是对于每个人的机器配置以及cuda环境,可能会导致一些问题,如果遇到问题可以发在评论区,大家一起研究,同时测试数据我放到下面了,需要的自行获取。
2024-03-15 16:07:43
20506
53
原创 Stable-Diffusion的WebUI部署实战
初步安装完成后,打开webui,可以看到左上角自带的模型。CheckPointCheckpoint 是 Stable Diffusion 中最重要的模型,也是主模型,几乎所有的操作都要依托于主模型进行。所有的主模型都是基于 Stable Diffusion 模型训练而来.主模型后缀一般为 .ckpt 或者 .safetensors,并且体积比较庞大,一般在 2G - 7G 之间。放置在 webUI 目录下的 `models/Stable-diffusion` 目录下。
2024-03-07 19:26:21
2187
2
原创 coze!属于人工智能领域的低代码工具 | 搭建属于自己的聊天机器人
扣子(英文名称 Coze) 是新一代一站式 AI Bot 开发平台。Coze 是由字节跳动推出的一个AI聊天机器人和应用程序编辑开发平台,可以理解为字节跳动版的GPTs。无论你是否有编程基础,都可以在扣子平台上快速搭建基于 AI 模型的各类问答 Bot,这个平台都可以让你快速地创建各种类型的聊天机器人,并将它们部署在其他社交平台和消息应用上。Coze还提供了多种插件、知识、工作流、长期记忆和定时任务等功能,来增强聊天机器人的能力和交互性。
2024-03-02 11:18:20
8992
原创 通义千问Qwen微调量化实战
本文主要内容是对于Qwen量化实战演练,将深入探讨两种不同的量化方法:分别是使用官方量化后的int4模型进行微调,得到模型理论上也是量化后的微调模型,另一种则是使用官方全量模型进行微调,再将微调后的模型进行自主量化。ps:作者认为如果真实场景使用的话建议使用第一种,第二只是用于了解即可,而且自己去量化模型bug百出,费时费力。
2024-01-26 10:34:48
3749
1
原创 基于lora的通义千问qwen大模型微调实战
基于通义千问qwen官方微调实例的1.8b的最小大模型lora微调,目前是基于单卡单机微调最简单实操,Qwen微调
2023-12-22 15:23:42
7955
16
ModelScope魔搭LLM入门教程.rar
2024-07-15
LLM入门学习之prompt工程
2024-06-17
LLM大模型测试训练语料数据
2024-03-15
LLaMA大模型训练工厂
2024-03-14
自然语言处理实体抽取算法基于pytorch框架bert+bilstm+crf
2023-10-24
哈工大自然语言Python SDK工具包
2023-10-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人