自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 菜鸟教程:从0开始离线部署私有大模型_离线大模型

大模型的使用必将包含以下三个阶段:1. 直接使用,用于提效2. 使用 API 定制应用程序3. 离线部署+微调,实现私有数据模型化第一个阶段已经完成,作为技术者应该关注第二、三阶段。1. 环境安装和配置我们以清华大学开源的 ChatGLM-6B 语言模型为例。ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。

2024-07-16 10:34:59 229

原创 企业该如何巧妙落地大模型这里有10大指南_大模型落地需采用什么策略

挑战与机会并存,挑战越大,机会越大,收益也就越大。作为数智时代的经营者,千万不要顽固不化,更不要畏首畏尾,因噎废食,而要积极拥抱变化,快速重塑认知,持续优化思路,带着你的团队,采用“

2024-07-16 10:34:09 635

原创 一文详解大模型微调常用方法_大模型微调数据集怎么标注

最近,深度学习的研究中出现了许多大型预训练模型,例如 GPT-3、ChatGPT、GPT4、ChatGLM-130B 等,这些模型可以在多种自然语言处理任务中取得优异的性能表现。而其中,ChatGPT 模型因为在对话生成方面的表现而备受瞩目,成为了自然语言处理领域的热门研究方向。然而,这些大型预训练模型的训练成本非常高昂,需要庞大的计算资源和大量的数据,一般人难以承受。这也导致了一些研究人员难以重复和验证先前的研究成果。

2024-07-16 10:33:34 924

原创 用Kimi 学AI 大模型、通用大模型,企业大模型与垂直大模型

常问:什么叫大模型,什么叫通用大模型,有企业大模型与垂直大模型之说吗?Kimi答:在人工智能领域,“大模型”、"通用大模型"以及"企业大模型"和"垂直大模型"是描述不同类型和应用范围的术语。

2024-07-11 10:41:40 242

原创 轻松上手!手机上部署Phi3、Llama3最新大模型全攻略!_phi-3-small 开源

Meta 重磅发布两款开源Llama 3 8B与Llama 3 70B模型,供外部开发者免费使用。

2024-07-11 10:41:10 322

原创 企业大模型微调项目落地实施中有哪些关键岗位角色?_在业务推进中实际的去熟悉大模型的微调涉及到的

随着人工智能技术的快速发展,大型企业纷纷投入到大型模型(如大语言模型、多模态大模型等)的研发与应用中。大模型因其强大的理解和生成能力,在各个领域都有着广泛的应用前景。然而,要将大模型真正应用于实际场景,为企业带来价值,就需要进行微调项目,这是一个涉及技术研发、数据处理、模型训练与优化等多个环节的复杂过程。企业在实施大模型微调项目时,往往面临着一系列挑战,如技术选型、团队组建、职责分工不明确等问题。

2024-07-11 10:40:23 797

原创 用Kimi 学AI 大模型、通用大模型,企业大模型与垂直大模型

常问:什么叫大模型,什么叫通用大模型,有企业大模型与垂直大模型之说吗?Kimi答:在人工智能领域,“大模型”、"通用大模型"以及"企业大模型"和"垂直大模型"是描述不同类型和应用范围的术语。

2024-07-09 15:07:56 975

原创 轻松上手!手机上部署Phi3、Llama3最新大模型全攻略!_phi-3-small 开源

Meta 重磅发布两款开源Llama 3 8B与Llama 3 70B模型,供外部开发者免费使用。

2024-07-09 15:07:23 621

原创 企业大模型微调项目落地实施中有哪些关键岗位角色?_在业务推进中实际的去熟悉大模型的微调涉及到的

随着人工智能技术的快速发展,大型企业纷纷投入到大型模型(如大语言模型、多模态大模型等)的研发与应用中。大模型因其强大的理解和生成能力,在各个领域都有着广泛的应用前景。然而,要将大模型真正应用于实际场景,为企业带来价值,就需要进行微调项目,这是一个涉及技术研发、数据处理、模型训练与优化等多个环节的复杂过程。企业在实施大模型微调项目时,往往面临着一系列挑战,如技术选型、团队组建、职责分工不明确等问题。

2024-07-09 15:06:29 1010

原创 掌握三大秘籍,普通人也能轻松驾驭AI大模型:告别技术焦虑,快速上手攻略

机器学习项目成功的关键,在于对问题的深刻理解,而非算法的选择。——彼得·诺维格(Peter Norvig)谷歌研究总监,人工智能专家这是互联网悦读笔记五一后正式复更的第一天。也是我开始系统化对外输出AI思考的第一篇文章。熟悉这个号的朋友大概能猜到,24年初开始,我就把主要精力投入在了AIGC产品的应用研究上。期间,我不断尝试把大模型落地到企业的实际工作中,并参考了大量行业案例和知识付费课程。但遗憾的是,很多人仍会对这项新技术持怀疑态度。

2024-07-05 14:43:46 1437

原创 中国大模型商业化提速:不仅企业赚钱,也让个人赚钱_视频大模型的书籍

最后,通过这些产品的上线,即便是不懂IT技术的小白也能成为AI行业的一份子,或者说,也让无数不懂技术的AI爱好者看到这样的可能性。这显然对大模型“真实应用”时代的早日到来助益颇丰。

2024-07-05 14:42:43 919

原创 大型语言模型微调入门指南

你可以根据特定的用例,通过微调大型语言模型的方式定制现有通用模型。为了更高效地微调模型,你可以考虑使用 LoRA 或模型分片(使用FSDP等框架)等技术。Modal的Llama和Mistral微调模板实现了许多这类的技术,能够帮助你快速启动分布式训练任务。你可以通过在 Modal 上微调 Llama 2 或Mistral 等开源模型获得一个定制的模型,这样不仅成本和延迟低于现有 API 服务,而且还非常适合自己的需求。

2024-07-05 14:42:07 813

原创 如何利用大模型在自己的领域做出花?_大模型领域适配

本文选取了VQA任务中比较难的两个数据集OK-VQA以及A-OKVQA进行实验。其中采用的上游VQA模型是改进+在传统VQA数据集上预训练的MCAN模型,作为baseline,原始的MCAN模型、改进但未预训练的MCAN模型以及本文用到的MCAN模型在OK-VQA测试集上的准确率如下:之后,文章给出了Prophet与若干对比的方法在OK-VQA上的实验结果。其中对比算法分为三组,这三组方法分别是用外部KB作为知识来源、用大规模多模态预训练获取知识以及用大模型作为知识来源。

2024-07-05 14:41:28 986

原创 大模型处理长上下文方法一览_大模型处理上下文

2023年中开始,各大LLM厂商开始关注到长上下文的问题。2023年5月,Claude把长度支持到100k tokens;6、7月的时候,ChatGPT3.5也已经支持16k,而ChatGLM2-B最大长度已经可以到32k。(插一句,ChatGLM系列做得一直很不错,从基础模型、长窗口、工具调用、Agent都一直保持在比较前沿的水平,个人最近用ChatGLM3、ChatGLM4体验还是很不错的)差不多同时间还有LM-SYS的LongChat,MosaicLM的MPT也支持16k以及更长的上下文。

2024-07-04 14:04:25 927

原创 10分钟微调专属于自己的大模型_10分钟微调大模型

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

2024-07-04 14:03:03 1413

原创 AI打造“魔法博物馆”,五分钟完成一件“3D展品”

注意看,这是一家“魔法博物馆”,陈列的展品琳琅满目,甚至还有机甲套装……魔法镜子、水晶法杖……也是一应俱全,仿佛真的进入了魔法世界。没错,这个“博物馆”里的“展品”全都是由AI打造的,而且一件只需要五分钟。来自南洋理工大学、上海AI实验室等机构的研究人员,共同推出了新款文生3D基础模型。只需要一组文本,它就可以在5分钟内生成出多样化、高精度的3D模型。除了“魔法博物馆”里的展品之外,日常的物品3DTopia更是可以精准合成。

2024-07-04 14:02:31 1189

原创 为什么一线大厂都在高薪抢 AI 产品经理?

不知道你是否听过“**移动互联网产品经理”**这个说法,当移动互联网成为整个互联网行业的基础建设,深入到各行各业,所有产品经理,其实都是移动互联网产品经理。而近些年,随着 AI 技术逐渐落地和市场认可度的不断提升,AI 产业岗位和泛 AI 产业岗位变得越来越走俏,很多产品经理希望借此风口转型成为“AI 产品经理”,进而拓宽自己的职业道路。最近,我身边不少产品经理,都会和我讨论 AI 相关的问题,比如:传统行业的产品经理是否适合转行做 AI 产品经理?如果转行的话,需要做哪些准备?

2024-07-01 16:33:38 889

原创 一张图看懂大模型性价比:能力、价格、并发量全面PK

百度最强模型的价格不变,但轻量模型把“厘时代”直接打到免费。不过需要注意的是,根据文心一言官网介绍,ERNIE Speed模型适用于精调,而精调还是要收费的。阿里云的模型全线降价,最强模型降幅低,轻量模型降幅高。所有价格应该都是经过了精密的测算,不会是随意拍的数。从价格来看还是颇有诚意,但初始支持的TPM/RPM稍显不足,企业在实际使用中需要对相关权益做好沟通。字节,火山引擎。当我们说起价格那些事儿,不由想起《明朝那些事儿》的经典台词:要么不做,要么做绝。

2024-07-01 16:32:59 916

原创 AI大模型入门基础教程(非常详细),AI大模型入门到精通,收藏这一篇就够了!

AI大模型,简而言之,是基于深度学习技术的庞大规模数据与计算能力孕育出的智能模型。这些模型的特别之处在于它们不仅参数量级的庞大,常常跨越亿计,而且在处理复杂度上也远超乎想象。正是这种规模和复杂性,使得它们在诸如自然语言理解、图像识别、语音识别等领域展现出卓越的准确性和泛化的处理能力,几乎可比拟的泛化应用范围。

2024-07-01 16:32:24 842

原创 从产品到业务,跨越边界,抓住时代新趋势,AI产品经理的逆袭路

又到了一年一度的复盘时刻,回首2023,我给自己的关键词是:艰难转型、边界认知、抓住新机会。

2024-06-28 14:45:01 551

原创 浅谈AI人工智能时代下的产品经理未来之路?

目前,人工智能还是一个学术密集型以及技术密集型的领域,其中最耀眼的角色当属研究人员和工程师。这样的背景下,大量的资讯和材料都指向了工程师受众。那么,对于产品经理来说,如何在这个领域中调整自己的认知和状态,跟上发展的节奏呢?在如今的科技行业中,人工智能的普及已成显著趋势,资本布局初具规模,从业者的梯队也逐渐形成。可以预见的一点是:在接下来相当长的一段时间内,人工智能会渗透到整个互联网行业中,成为业界标配。这种规模的技术变革,很可能会改变游戏规则,从而产生大量的新机会。

2024-06-28 14:43:52 860

原创 5个好用的中文AI大语言模型_中文大模型

AI大语言模型(Large Language Models, LLMs)是近1-2年来人工智能领域的重要发展,它们通过深度学习技术,特别是基于Transformer的架构(如GPT、BERT等),实现了对自然语言处理的巨大突破。AI大语言模型的主要功能和作用有:文本生成、创意写作、对话生成、问答系统、文本翻译、代码生成、代码解释、文档生成、辅助写作、辅助设计等。1.讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞讯飞星火认知大模型是科大讯飞发布的大模型。

2024-06-27 10:23:44 780

原创 现身说法,AI小白的大模型学习路径

写这篇文章的初衷:作为一个AI小白,把我自己学习大模型的学习路径还原出来,包括理解的逻辑、看到的比较好的学习材料,通过一篇文章给串起来,对大模型建立起一个相对体系化的认知,才能够在扑面而来的大模型时代,看出点门道。为什么要写这篇文章?首先我关注到了两个变化。

2024-06-27 10:22:32 868

原创 如何破解大模型应用有场景但落地难的问题?_大模型应用面临问题

许多大模型在场景中有很多潜在的应用,但在实际落地中常常会面临着各种各样的挑战和困难。具体而言,大模型通常需要大量的高质量数据进行训练,收集、整理和标注这些数据可能需要耗费大量的时间和资源,数据的质量和多样性对大模型的性能有很大影响。训练大模型需要强大的计算资源,包括计算能力和内存,这可能需要大量的资金投入和时间等待来建设和维护相应的基础设施。大模型通常具有复杂的结构和参数,这使得它们在部署和应用时具有一定的难度,模型的解释性、可扩展性和可维护性等问题也需要认真考虑。

2024-06-27 10:21:59 873

原创 工业大模型为何要落地很难?

AI大模型的落地关键,是解决技术与应用场景间的鸿沟。这涉及如何使大模型更好地适应特定的工业应用场景,以及如何克服不同模型和算力平台特性的差异带来的现实挑战。另外,在高精度要求行业中,应用场景适应性问题难度更大。

2024-06-25 20:31:10 570

原创 中国大模型落地进展如何?

在ChatGPT爆发之后,国内外科技赛道都被掀起了巨大波澜,随后在国内这段时间里,大量的大模型争先恐后地出现。那么截止到现在,大模型在国内土壤落地得怎么样了?一起来看看本文的解读。距离ChatGPT爆发的那一天,已经过去8个月了。8个月的时间,中国诸多大模型拔地而起,以飞快的速度,不断向各个行业场景渗透。但就目前为止,并未出现真正被大模型颠覆的场景或行业。统计数据显示,在大模型落地应用中,一个值得被看见的问题是:如今在中国的土壤里,大模型的落地进展究竟如何?

2024-06-25 20:30:34 1250

原创 最新!AI大模型的研究热点

在人工智能的浪潮中,大模型研究如日中天,涵盖诸多研究方向,每个方向均承载着独特的研究焦点与挑战。以下,,这些方向致力于攻克大模型在实际应用中的核心难题,进而提升其性能与实用性。检索增强生成RAG凭借信息检索与文本生成的有机结合,显著提升了AI系统的效能。其核心优势在于,能够借助外部知识库辅佐生成过程,确保生成内容的精准度与鲁棒性。结合大模型所具备的卓越生成能力,RAG在问答系统、文档生成、自动摘要、智能助手、信息检索以及知识图谱填充等诸多自然语言处理场景中均展现出强大的应用潜力。

2024-06-25 20:30:02 821

原创 大模型扫盲系列——大模型实用技术介绍_大模型底层技术是哪些

从公式知,输入是正的,则直接输出该值;如果输入是负的,则输出0。ReLU因其简单性和效率在深度学习中非常流行。它有助于解决梯度消失问题,加速了神经网络的收敛,并且计算简单。

2024-06-24 14:47:03 690

原创 如何利用大模型在自己的领域做出花?_大模型领域适配

本文选取了VQA任务中比较难的两个数据集OK-VQA以及A-OKVQA进行实验。其中采用的上游VQA模型是改进+在传统VQA数据集上预训练的MCAN模型,作为baseline,原始的MCAN模型、改进但未预训练的MCAN模型以及本文用到的MCAN模型在OK-VQA测试集上的准确率如下:之后,文章给出了Prophet与若干对比的方法在OK-VQA上的实验结果。其中对比算法分为三组,这三组方法分别是用外部KB作为知识来源、用大规模多模态预训练获取知识以及用大模型作为知识来源。

2024-06-24 14:46:28 283

原创 # LLM高效微调详解-从Adpter、PrefixTuning到LoRA_llm高效微调技术

目前NLP主流范式是在大量通用数据上进行预训练语言模型训练,然后再针对特定下游任务进行微调,达到领域适应(迁移学习)的目的。指令微调是预训练语言模型微调的主流范式,其目的是尽量让下游任务的形式尽量接近预训练任务。从而减少下游任务和预训练任务之间的Gap, 实现预训练语言模型适应下游任务,而非下游任务去适应模型指令微调的效果要优于基于Zero/Few-shot的提示词工程的上下文学习。但随着预训练语言模型进入LLM时代,其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。

2024-06-24 14:45:36 576

原创 小白也能看懂 大模型的6个评估指标

近年来,随着深度学习技术的飞速发展,大型神经网络模型如BERT、GPT-3等已经成为自然语言处理、计算机视觉、语音识别等领域的重要工具。这些模型之所以称为"大型",是因为它们通常包含数十亿甚至数千亿的参数,比以往的模型要庞大得多。然而,模型的规模庞大并不总是意味着性能更好,因此我们需要一套有效的方法来评估这些大型神经网络的性能。本文将探讨为什么要评估大型神经网络模型,以及如何使用一系列关键指标来评估它们。在深度学习领域,大型神经网络模型已经成为各种应用的核心。

2024-06-24 14:44:27 232

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除