- 博客(131)
- 收藏
- 关注
原创 AI Agent发展面临哪些挑战?端侧大模型将如何提升其可用性?
AI Agent(人工智能代理/人工智能体)是融合感知、分析、决策和执行能力的智能体,其能够与环境交互,收集信息、数据,并利用信息、数据。
2024-08-12 10:05:09 1175
原创 如何免费使用GPT-4o?国内AI大模型相比又怎样?汇总来了!
OpenAI是一家领先的人工智能研究公司,开发了多种大语言模型,现如今GPT-4o以及GPT-4o mini等版本都已经推出。使用国内镜像站是相对而言,使用ChatGPT更为直接简单的方法,但是毕竟不是官方途径,会存在使用不稳定的情况,比如回复缓慢、报错等。比如下面的狠活AI,会赠送一些积分,通过赠送的积分可以免费试用一下GPT系列。每使用一次工具就扣除相应的积分,GPT-4o一次需要消耗10积分。但赠送的积分很少,试用的次数着实有限,只能当做尝个鲜吧!
2024-08-12 10:01:54 1720
原创 国产AI大模型应用典型案例盘点,覆盖10大医疗应用场景!
随着人工智能技术的飞速发展,国产AI大模型在医疗健康领域的应用日益广泛,正在逐步改变传统的医疗服务模式,提升医疗服务的质量和效率。以下是对国产AI大模型在医疗领域应用的典型案例盘点,覆盖了十大医疗应用场景。AI大模型通过分析海量医疗数据,能够辅助医生进行更准确的诊断。例如,百度灵医大模型利用其强大的数据处理能力,通过API或插件嵌入的方式,在200多家医疗机构中展开应用,显著提升了诊断的准确性和效率。此外,
2024-08-12 09:57:51 727
原创 大模型微调,到底有没有技术含量?
大模型微调到底有没有技术含量,或者说技术含量有多大呢。本文为大家总结了一位知乎好友的回答,希望对大家客观认识大模型微调有所帮助。今天给大家带来知乎好友@ybq的一篇回答-大模型微调到底有没有技术含量,或者说技术含量到底有多大?老生常谈的一句话吧:有没有技术含量取决于这个工作你怎么做,尤其是 llm 方向,上手门槛相比传统 NLP 变得更低了。我举一些例子吧,针对大模型微调的几个重要环节,我列举的每一种做法大概率都能完成最终目标,甚至说训出来的模型效果都没什么差别。但对个人能力成长的帮助就大不相同了。
2024-08-10 09:56:52 1034
原创 多模态大模型有何进展?西工大等最新《多模态大型语言模型》全面综述
A. 定义和基本概念总体而言,MLLMs 代表了人工智能和机器学习领域的重大进展,具备处理和解释多种数据类型(包括文本、图像、音频和视频)的能力[28], [29], [30]。通过整合和合成这些不同模态的数据,MLLMs 实现了对信息更全面和精确的理解和生成[3]。特别是,MLLMs 是专门设计用来同时处理和解码多模态数据的复杂系统。MLLMs 的核心原理在于不同模态的整合和交互,这显著增强了模型的有效性。
2024-08-10 09:54:17 819
原创 AI大模型新突破:GPT-5引领多模态交互新时代
近期,AI大模型领域迎来了一系列令人瞩目的新突破,特别是GPT-5的即将发布,预示着多模态交互时代的到来。OpenAI作为行业领头羊,预计将在今年晚些时候推出GPT-5,该模型将支持视频、音频等多模态输入与输出,彻底颠覆内容创作与交互方式。与此同时,国内厂商如科大讯飞和商汤科技也在加速技术创新,展现出强劲的竞争力。本文将从多个维度深入分析这一领域的新进展,探讨其对未来科技、产业和社会的影响。
2024-08-10 09:49:50 820
原创 《开源大模型食用指南》发布,7个小时,一杯奶茶速通大模型!
为什么要做这样一个开源项目?我自己也是一名学习者,在暑假期间参加了 Datawhale 组织的夏令营学习活动,并作为专业助教为学习者解答疑惑。做助教期间帮助了很多学习者,也感受到了学习者关于大模型参差不齐的水平,很多我看来很简单的入门的知识,初学者也需要很长时间来理解(如果没有合适的引导)。所以我和我的小伙伴决心做一个让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中的项目,因此《开源大模型食用指南》诞生了。
2024-08-10 09:46:10 1198
原创 LLM 教程 — 大语言模型在问答系统中的运用
大语言模型指的是能够学习和生成自然语言的人工神经网络类型。这类模型通过对大量文本数据(如书籍、文章、网页、社交媒体帖子等)进行学习,掌握了词语、句子和段落之间的统计规律和关系。基于这些知识,大语言模型能够生成与特定主题、提示或上下文相关的新文本,这些文本既流畅又连贯。大语言模型的基础是深度学习技术,深度学习是机器学习的一个分支,它通过多层人工神经元学习数据。大语言模型采用了一种称为 Transformer 的特定架构,它由编码器和解码器两大主要部分组成。
2024-08-09 09:43:41 807
原创 ICML 2024 大语言模型相关507篇论文整理
国际机器学习会议(International Conference on Machine Learning,简称ICML)是机器学习领域最具影响力的国际学术会议之一。ICML聚集了来自全球范围内的学者、研究人员和从业者,以分享他们在机器学习领域的最新研究成果、进展和创新想法。今年的 ICML 会议已在 2024 年 7 月 21 日~ 7 月 27 日于奥地利维也纳举办。据官方邮件通知,今年 ICML 共收到 9473 份投稿,其中 2610 份被接收,接收率约为 27.55%。
2024-08-09 09:34:54 714
原创 大语言模型在生成式信息提取中的应用概览
本篇介绍大模型在信息提取任务中的应用在自然语言处理(NLP)的广阔天地中,信息提取(IE)一直是一项基础而关键的任务。它将原始文本转化为结构化知识,如实体、关系和事件,为知识图谱构建、知识推理和问答等下游任务提供了重要支撑。随着大型语言模型(LLMs)的兴起,其在文本理解与生成方面展现出的卓越能力,为生成式IE带来了新的生机。2.数据稀缺问题:在一些特定领域,标注数据可能非常有限,这限制了模型的训练和性能。3.领域适应性:模型需要能够适应不同领域的特定语言和术语使用,这可能需要额外的领域适应步骤。
2024-08-09 09:32:13 804
原创 Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !
在过去的几年里,电力传输线路的检查已经取得了显著的成就,这主要得益于深度学习技术的融合。然而,当前的检查方法在泛化和智能化方面仍然存在困难,这限制了它们进一步的应用。在本文中,作者介绍了Power-LLaVA,这是第一个专门为通过与人类对话提供专业可靠电力传输线路检查服务的大型语言视觉辅助系统。此外,作者还构建了一个大规模、高质量的专门针对检查任务的数据集。通过在构建的数据集上采用两阶段训练策略,Power-LLaVA在相对较低的训练成本下展示了卓越的性能。
2024-08-09 09:17:44 1036
原创 技术动态 | 基于SAP数据的生成式人工智能:大语言模型和知识图谱
我们已经在 SAP 中存储数据数十年了,数据量太大,因此我们使用数据仓库和类似技术。现在,借助 Transformer Models,我们有能力理解极其庞大的数据集。想象一下,我们向通用大语言模型展示 BKPF 和 BSEG 之间的关系,并回答有关它的查询。我相信基础模型有能力重塑所有行业,但现有的大型语言模型在对复杂行业用例的适用性方面存在不足。从嵌入和微调通用基础模型,我慢慢地开始将垂直和特定领域的数据合并到模型中。
2024-08-08 09:57:47 911
原创 LLM大模型之Rag检索增强生成演变成GraphRAG
RefAug:prompt增强训练LLM论文提出了一种新的训练策略,名为“reflective augmentation”(简称RefAug),旨在通过在数学问题解答训练实例中嵌入问题反思,来培养语言模型(LMs)更深层次的理解能力。这种方法不仅提高了模型在标准单轮问答(QA)设置中的性能,也显著提升了模型在需要反思性思考的更复杂场景中的性能,如处理后续问题、纠正错误或利用外部反馈。从项目代码中查看训练数据文件为在答案中增加反思过程,通过训练以引导LLM主动反思,增强推理能力。
2024-08-08 09:53:45 994
原创 LAMBDA:基于大模型的数据agent
论文标题:LAMBDA: A Large Model Based Data Agent论文链接:https://arxiv.org/pdf/2407.17535案例研究展示:https://www.polyu.edu.hk/ama/cmfai/lambda.html论文介绍“LAMBDA”,一种新颖的开源、无代码的多agent数据分析系统,该系统利用大型模型的力量。LAMBDA旨在通过使用创新设计的数据agent来解决复杂数据驱动应用中的数据分析挑战,这些agent使用自然语言进行迭代和生成操作。
2024-08-07 10:19:30 823
原创 国内AI大模型分享
2024年,国内人工智能大模型的发展实现了飞跃式的进步,各大科技巨头和创新型企业纷纷推出了自家的AI大模型。您亲自体验过其中的哪几款呢?简介:ERNIE是由百度研发的一系列大型模型,专精于自然语言处理(NLP)领域,并展现出卓越的语言理解和生成能力。核心技术与优势包括:语言理解:ERNIE在处理中文语言理解任务时表现优异,能精准把握语言中的微妙差异。文本生成:支持高质量文本的创作,适用于新闻写作、内容创作等多个场景。
2024-08-07 10:16:15 1046
原创 掌握 Llama 3.1:轻松本地部署与远程使用的全攻略
Llama 3.1 是 Meta(Facebook 的母公司)发布的一系列最先进的开源大语言模型。Llama 3.1 系列包括 8B(80 亿参数)、70B(700 亿参数)和 405B(4050 亿参数)模型。其中,405B 是 Meta 迄今为止最大的模型。
2024-08-07 10:12:30 1692
原创 最新资讯 | 开源大模型Llama会失去技术优势吗?
近日,Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B,支持上下文长度为128K Tokens,在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练,这也是Meta有史以来第一次以这种规模训练Llama模型。Meta同时还发布了全新升级的Llama 3.1 70B和8B模型。
2024-08-06 10:00:36 990
原创 对大模型原理解读最通透的一篇文章
生成式 AI 太火爆了,可以说无处不在,频频刷爆我们的朋友圈。你可能已经试用过 ChatGPT 了,甚至已经把它当作你的智能小助手。但我知道很多人心里会有个疑问:这些 AI 模型的智能究竟是怎么来的?今天咱们就来聊聊这个话题。我会用大家都能懂的,而不是那些让人头大的高等数学术语来解释生成式文本模型的工作原理,揭开它的神秘面纱,把它变成简单的计算机算法。首先,我要澄清人们对 LLM 工作原理的一个重大误解。大多数人认为这些模型可以回答问题或与你聊天,但。让我们从 Token 开始了解 LLM 的奥秘。
2024-08-06 09:58:44 812
原创 大语言模型评测方法全面总结!
自2017年Transformer模型提出以来,自然语言处理研究逐步转向基于该框架的预训练模型,如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后,持续刷新最优结果。然而,现有评测方法存在广度和深度不足、数据偏差、忽视模型其他能力或属性评估等问题。因此,需要全面评测和深入研究模型的各项能力、属性、应用局限性、潜在风险及其可控性等。本文回顾了自然语言处理中的评测基准与指标,将大语言模型评估分为经典和新型评测范式,分析了现有评测的不足。
2024-08-06 09:55:35 604
原创 量化方法怎么选?如何评估量化后的大模型LLM?
本文都是针对PTQ如何选择和应用量化技术的建议:评估量化对各种NLP任务的影响评估量化对不同LLMs的影响不同的Tensor类型对量化的影响不同的量化方法对模型的影响根据实验结果的几个关键见解如下:模型越大,对仅权重和KV缓存量化的容忍度越高,而对激活量化的容忍度较低。利用专家混合(MoE)技术增加模型大小并不一定增强模型对量化的容忍度。对于大多数NLP任务,将大多数LLM家族量化为W4、W4A8、KV4和W8KV4,性能损失可以忽略不计(
2024-08-06 09:43:08 712
原创 中国大模型厂商,疯卷奥运会
最浪漫和时髦的一届奥运会正在进行时,而每一年的奥运会,不仅是各国运动员竞技的舞台,同样也是观察技术进化的一个窗口。今年4月,国际奥林匹克委员会首次颁布了《奥林匹克AI议程》,国际奥委会主席巴赫说:“我们的持续成功取决于如何拥抱数字技术,特别是不断加速发展的人工智能。时至今日,AI技术几乎已融入奥运会方方面面。
2024-08-06 09:33:39 816
原创 RAG知识库之针对长文档的Raptor索引
这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
2024-08-05 09:52:50 736
原创 中国大模型行研能力市场探析
大模型是继工业革命和互联网革命之后的又一重大创新,将在社会劳动力提升、产业发展加速以及科技突破三个关键领域中,显著增强实体产业的发展能力。中国大模型行业综述——大模型架构综述大模型是一种基于深度学习的自然语言处理技术,它通过分析和学习大规模文本数据集合,掌握了丰富的语言知识和深层语义信息。经过三次NLP的技术范式转变,已能够达到类人智能的内容产出水准。语言大模型是一种基于深度学习的自然语言处理技术,它通过训练大量的文本数据,学习到丰富的语言知识和语义信息。
2024-08-05 09:51:06 593
原创 9.11 与 9.9 哪个大? 大模型幻觉从何而来?用最通俗的例子讲清楚大模型原理。
如下图,我们使用用 gpt-4-turbo 模型为例,问9.11 与 9.9 哪个大,并让他一步一步给出分析步骤。你会发现,它开始了胡说八道,这就是“大模型幻觉”。那么问题来了,为什么会出现这种结果?幻觉从何而来?理解大预言模型的原理,主要就是 tokenizer 做字词推理9.11 会被拆分成 “9”、“.”和“11”9.9 会被拆分成 “9”、“.”和“9”这时,这么来看 11 > 9, 但是从数学角度,我们都知道,小数点后面并不能这样比较。于是当你让大模型一步一步分析后,它就开始了胡说八道。
2024-08-05 09:49:30 926
原创 分析完900个开源AI大模型工具,一些发现让我意外
AI技术栈分为三层:基础设施、模型开发和应用开发。2023年,特别是Stable Diffusion和ChatGPT引入后,新工具的数量激增。2023年是AI工程的一年,出现了多种工具和框架。模型开发在ChatGPT之前占主导地位,2023年对推理优化、评估和参数高效微调的兴趣增加。基础设施层相对稳定,尽管引入了向量数据库等新类别。。中国的开源生态系统正在增长,许多流行的AI仓库针对中国受众。
2024-08-05 09:44:57 1042
原创 AI界的新宠:揭秘Llama 3.1如何革新AI合成技术
最近,Meta公司发布了功能强大的开放型大型语言模型,它既适用于批量处理也适用于在线推理,并且可以作为特定领域预训练或微调的基础。考虑到模型的规模及其训练所使用的数据量,它非常适合用于。在本博客文章中,我们将探讨合成数据生成的几个应用案例,并深入讨论其中之一。并不是创造全新的信息,而是通过转换现有信息来生成不同的变体。在过去的十多年里,合成数据技术已被广泛应用于提升各类模型的精确度——无论是通过变换图像来优化物体检测模型,还是加强信用卡欺诈检测,亦或是提升BERT模型在自动问答方面的表现。
2024-08-05 09:39:48 1389
原创 LLM做Sentence Embedding的通用方案
最近在做RAG相关的项目,在做检索模型的时候,由于我的需求更偏向于主题检索且需要较大的通用性。现有的检索模型bge、m3e等更偏向于语义匹配,即使针对主题做模型微调也没有很好的通用性,不能很好的完成需求。尝试直接使用LLM做Embedding,主要思想是将输入添加Prompt(将输入总结成一个词),然后使用最后一个词的最后一层作为整个输入的Embedding。这里细读下面的2篇文章,并在中文的主题分类数据集上进行测试(这里使用公开数据集-科大讯飞的长文本分类),之后希望能在项目中有较好的应用。
2024-08-04 11:00:00 572
原创 下载量10w+!LLM新书《大型语言模型:语言理解和生成》pdf免费分享
下载量10w+!LLM新书《大型语言模型:语言理解和生成》pdf免费分享近年来,人工智能在新语言能力方面取得了显著进展,深度学习技术的快速发展推动了语言AI系统在文本编写和理解方面的表现。这一趋势催生了许多新功能、产品和整个行业的兴起。书旨在为Python开发者提供实用工具和概念,帮助他们利用预训练的大型语言模型的能力,如拷贝写作、摘要等用例;构建高级的LLM流水线来聚类文本文档并探索主题;创建超越关键词搜索的语义搜索引擎;深入了解基础Transformer模型的架构,如BERT和GPT等;
2024-08-03 11:45:00 3176
原创 LLM开源模型-LLMs-Qwen2-通关攻略笔记v2.0
【Qwen2模型结构改进】Self-Attention:使用GQA-之前是MHA。输入上下文长度:32k(0.5B和1.5B) +128k(7B和72B) ,提出MoE模型Qwen-57B-A14B,支持最大上下文为64K;【Qwen2 模型的结构参数】【Qwen2预训练数据处理】【Qwen2预训练数据】Qwen2-0.5B使用12T tokens。其余规模都使用7T tokens。
2024-08-02 14:20:47 553
原创 2024 人工智能最前沿:分享几个大模型(LLMs)的热门研究方向
使LLM根据不同内容生成更多样化的示例」**。SYNTHESIZRR在提升词汇和语义多样性、模仿人类文本以及提高模型微缩化性能方面,均优于传统方法。
2024-08-02 09:00:00 952
原创 吴恩达DeepLearning.AI官方课程系列——Pretraining LLMs
机智流后续会继续跟进解读吴恩达DeepLearning.AI官方课程系列——Pretraining LLMs课程,欢迎小伙伴们在留言区积极互动转发分享,你们的支持是我们更新最大的动力~
2024-08-02 08:30:00 802
原创 从地产到AI行业产品经理,周末终于不再被打扰了
爆破人:大柱原专业:建筑学原岗位:地产设计管理现岗位:AI产品经理#BG2012-2017:某双非建筑学本科2018-2020:某QS前20建筑学硕士#工作2020-2022:Top10地产管培2022-至今:AI产品经理2020年,地产最后的光辉时刻,我与一众985高校的精英们,过五关斩六将,拿下了top10地产的管培名额。当时的我们被许诺的是6-10个月的年终奖,3年经理5年总监。虽然大家知道这饼多多少少有些水分,但看到克尔瑞榜单上每家几千亿的销售额,还是不禁憧憬起自己的未来。
2024-08-02 08:00:00 647
原创 LangChain实践-Data Connection(数据连接)之Vector Store(向量数据库)
存储和搜索非结构化数据的最常见方法之一是将其嵌入并存储生成的嵌入向量,然后在查询时嵌入非结构化查询并检索与嵌入查询“最相似”的嵌入向量。向量存储负责为您存储嵌入数据并执行向量搜索。向量数据库是一种将数据存储为高维向量的数据库,高维向量是特征或属性的数学表示。每个向量都有一定数量的维度,根据数据的复杂性和粒度,可以从数十到数千不等。向量通常是通过对原始数据(如文本、图像、音频、视频等)应用某种转换或嵌入函数来生成的。嵌入函数可以基于各种方法,如机器学习模型、词嵌入和特征提取算法。
2024-08-02 07:30:00 929
原创 Linkedin领英大模型落地实践系列 - 首个生成式人工智能项目走过的5个坑
LinkedIn发现基于生成式人工智能的功能原型可以非常快速地完成然而将其投入生产则完全是另一回事前段时间分享了每个IT公司今天都必须试图将生成式AI融入他们自己的应用程序中,希望以一种能给用户带来价值并为供应商赢得忠诚度的方式。社交网络服务LinkedIn最近将生成式AI融入其两个服务,并在上周通过一篇博客文章分享了他们的经验。这篇文章借鉴了公司在构建两个“高级”LinkedIn服务中的经验,一个是用于总结帖子中的文本,另一个是用于推荐职位发布。
2024-08-01 16:12:20 437
原创 Linkedin的GraphRAG客服问答系统实践
在客户服务技术支持中,迅速准确地检索相关的过往问题对于高效解决客户咨询至关重要。传统的检索方法在大型语言模型(LLMs)中检索增强生成(RAG)将大量过往问题跟踪工单视为简单文本,忽略了关键的问题内部结构和问题之间的关系,这限制了性能。我们引入了一种新颖的客户服务问答方法,将RAG与知识图谱(KG)相结合。我们的方法从历史问题构建知识图谱,用于检索,保留了问题内部结构和问题之间的关系。在问答阶段,我们的方法解析消费者的查询并从知识图中检索相关子图以生成答案。
2024-08-01 16:11:07 711
原创 以正教育大模型入选《2024大模型典型示范应用案例集》
近日,在2024世界人工智能大会“大模型焕新与产业赋能”论坛上,中国信通院华东分院、上海人工智能实验室联合发布了《2024大模型典型示范应用案例集》(以下简称《案例集》),蚂蚁云科技集团“以正教育大模型在教育领域的应用”案例成功入选。此外,还有松鼠Ai的“松鼠Ai智适应教育大模型应用案例”、好未来教育的“基于九章大模型的个性化学习产品AI Tutor”、腾讯科技的“腾讯云大模型知识引擎”、阿里云、网易、浪潮、第四范式等企业优秀案例共同入选。
2024-08-01 16:09:15 376
原创 惊天逆转!Llama 3.1 完胜 GPT-4o,AI 开源新时代!
自从 Meta 开源了 Llama 3.1 405B 模型,Meta CEO 马克·扎克伯格在一次声明中表示,Meta 的长期目标是构建通用智能,并以负责任的方式将其开源,使所有人都能受益。在多个基准测试中,Llama 3.1 的表现令人惊艳。例如,在数学推理(GSM8K 基准测试)中,Llama 3.1 的得分为96.82%,超过了 GPT-4o 的94.24%。在代码生成(HumanEval 基准测试)方面,GPT-4o 以92.07%的得分略胜 Llama 3.1 的85.37%。
2024-08-01 16:08:10 669
原创 终于有人总结了大模型技术!
在深入研究LLaMA、ChatGLM和Falcon等大语言模型时,我们不难发现它们在技术实现上有着诸多共通之处与独特差异。例如,这些模型在tokenizer(分词器)的选择上,可能会根据模型的特性和应用场景来定制;位置编码(Positional Encoding)的实现方式也各具特色,对模型性能的影响不容忽视。此外,Layer Normalization(层归一化)和激活函数(Activation Function)的选择与运用,都直接影响到模型的训练速度和准确性。
2024-07-31 15:59:18 293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人