自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(733)
  • 收藏
  • 关注

原创 智谱视频版“Her”上手实测,国产大模型已经这么实用了吗?

Hi,iTab 的朋友,你们好哦!最近,AI圈最爆的话题莫过于o1模型的发布了!当天,发生了一个小插曲:期待GPT-4o视频通话功能的评论默默占领了Altamn的热评第一。要知道,OpenAI今年3月份就搞来一波关注的通话功能现在还都是期货。结果给Altamn直接问破防了,“能不能先感激一下我们o1,再来找我要新玩具啊?也不能怪网友。实在是AI“有眼睛”这件事太令人眼馋了!谁能拒绝科幻电影里才有的“黑科技”呢?不过,不必再苦等GPT-4o。

2024-09-19 17:08:23 224

原创 全球首个多模态地理科学大模型发布!!快来看看

查文献、写综述、出图表……这个大模型不仅是“地理通”,而且是科研好帮手。中国科学院地理科学与资源研究所19日在京召开新闻发布会,正式发布全球首个多模态地理科学大模型“坤元”。“坤元”是专注于地理科学的专业语言大模型,具有“懂地理”“精配图”“知人心”“智生图”等功能,能够解答地理专业问题、智能分析地理学文献、查询地理数据资源、挖掘分析地理数据、绘制专题地图。

2024-09-19 16:50:12 290

原创 实用爆表!建议收藏!盘点50+个国内大厂的国产AI大模型工具

在这个数字化飞速发展的时代,AI大模型工具正日渐融入我们的工作与生活的各个层面,成为我们日常生活中不可或缺的助手。它们不仅以独特且强大的功能帮助我们提高工作效率,还激发我们的创造力,使得原本复杂或耗时的任务变得更加简单和轻松。为了让您能够更好地利用这些工具,我们今天精心挑选并整理了一系列实用的AI工具,并提供了它们的官网链接,以便您能够快速地访问和使用它们。这份列表覆盖了从内容生成到办公辅助,再到翻译和搜索服务等多个领域,旨在为您的数字化生活提供全面的支持和便利。

2024-09-19 16:06:08 259

原创 2024 年最值得尝试的 8 个 AI 开源大模型

本文只提及了 8 个值得尝试的开源 LLM,如果想要学习和尝试更多的 LLM,可以去 HuggingFace 上查看,这里集结了大量的优秀模型。初期不建议投入大量资金到硬件设施上,个人学习的话,完全可以从小型的模型开始(比如 Llama 3.1 的 8B 模型、Phi-2 的 2.7B 模型),熟悉之后再选择更大的模型。

2024-09-19 15:24:53 465

原创 大概是最全的开源大模型LLM盘点了吧!

LLM(Large Language Model, 大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型,用于理解和生成自然语言文本。在自然语言处理(NLP)领域有着广泛的应用,因其强大的语言理解和生成能力,能够处理各种复杂的文本任务,包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。LLM主要基于Transformer架构,该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。

2024-09-19 14:59:58 395

原创 为什么说程序员不断的提高自己的技术有可能是一种误区?(看完这篇就懂了)

从职业发展更全面的视角来看,程序员只提高技术是不够的。举些例子:1.曾经流行的Perl和PHP语言的市场需求已经大不如前,转而被Python和node.js等语言取代。如果只精通某个特定语言或技术栈,技能可能会过时。2.曾经需要程序员手动编写的功能现在可以通过软件工具自动实现。例如网站开发的前端设计,曾需要手动编写的HTML和CSS代码,现在可以使用可视化拖拽工具(如Wix)来实现,减少了对前端开发者的需求。接下来,从为什么和怎么做两个方面来详细阐述这个问题。

2024-09-18 16:52:44 602

原创 如何学习ai agent?

可以先学习AI Agent相关理论,再结合应用和实践去理解。下面我从AI Agent的基本概念、原理、组成、应用、实现方法等方面来详细介绍~

2024-09-18 16:17:47 702

原创 程序员转行,做什么比较好?

程序员可转行的赛道很多,知识分享、独立开发者、兴趣/学科班老师、自媒体运营、考公考编等等。不过在聊可转行的方向前,我们先看看程序员转行有哪些原因~

2024-09-18 15:46:59 695

原创 献给秋招:大模型面经——Langchain总结

然而,过多的辅助函数可能会导致混淆,因为有些函数可能具有相似的名称或功能,但在不同的上下文中使用方式不同。例如,LangChain中的提示词模板基本上只是对字符串的封装,但该框架提供了多种类型的提示词模板,它们之间的差异并不明显,这带来了一定的冗余。有些提示词默认是预先设定的,若要进行修改,用户需要查阅源代码以确定修改位置,这增加了使用的复杂性。工具包实际上是一组供代理使用的工具集合,旨在执行特定的功能,比如语言处理、数据处理以及外部 API 的集成。使用选定的嵌入模型,将预处理后的文本转换为向量表示。

2024-09-17 10:15:00 1424

原创 多模态大模型入门指南

如表1所示,对26 SOTA MM-LLMs的架构和训练数据集规模进行了全面比较。随后,简要介绍这些模型的核心贡献并总结了它们的发展趋势。代表了一系列视觉语言 (VL) 模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。(2)BLIP-2引入了一个资源效率更高的框架,包括用于弥补模态差距的轻量级 Q-Former ,实现对冻结 LLMs 的充分利用。利用 LLMs,BLIP-2 可以使用自然语言提示进行零样本图像到文本的生成。(3)LLaVA。

2024-09-16 18:45:00 961

原创 Open AI发布新一代大模型“o1”:会像人类一样“花时间思考”

AI领域再一次迎来了重大突破!北京时间今日凌晨,OpenAI正式发布名为OpenAI o1的新模型,即之前所传的“草莓”(Strawberry)模型,该模型可以执行一些类似人类的推理任务,在回复用户询问前会“花更多时间思考”。OpenAI的CEO萨姆·奥尔特曼(Sam Altman)称其为“新范式的开始”。“o1”新一代大模型能够解决多步骤问题,在复杂推理、数学和编程问题方面,能够像人类一样思考解决问题的过程。

2024-09-15 12:00:00 695

原创 2024大模型面试八股(含100道答案)

这个过程涉及到将教师模型的知识转移到学生模型中,通常通过模仿教师模型的输出或中间层的表示。相反,如果模型需要在嵌入式设备上运行,可能需要将模型压缩到更小的尺寸,并优化其运行时的内存使用,以确保模型可以在资源有限的设备上顺利运行。数据输入格式通常需要与模型的输入接口相匹配,例如,对于文本模型,数据通常需要是字符串格式,并且可能需要经过特定的预处理,如分词、编码等。INT8 提供更高的压缩比,可以显著减少模型的内存占用和带宽需求,但由于量化过程中的 信息损失,可能会对模型的准确性产生一定影响。

2024-09-14 13:51:14 736

原创 21个Transformer面试题的简单回答

答:因为self-attention是位置无关的,无论句子的顺序是什么样的,通过self-attention计算的token的hidden embedding都是一样的,这显然不符合人类的思维。因此要有一个办法能够在模型中表达出一个token的位置信息,transformer使用了固定的positional encoding来表示token在句子中的绝对位置信息。

2024-09-14 13:47:10 947

原创 接近理科博士生水准!OpenAI放大招

北京时间9月13日凌晨,OpenAI重磅发布全新AI大模型——o1模型。据OpenAI官网介绍,这一模型“旨在花更多时间思考后再作出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题”。不过,今天在ChatGPT和大模型API中新发布的是该系列中的第一款模型,而且还只是预览版——o1-preview(o1预览版)。

2024-09-13 16:20:18 980

原创 LLM 工程师入门:生成式AI的简易指南

大模型发展了近两年,Baihai IDP公众号也分享了近百篇LLM各环节的技术洞察,有前沿探讨、有落地实践、有应用经验。但回头来看,我们似乎从来没有认真、从0开始探讨过LLM的基本原理。最近,一些企业客户和伙伴来询问,是否有LLM的从0到1的科普贴。他们说:“虽然在很多场景中,LLM都已经渗透入我们的工作生活,但对其内部的运作机制,仍有很多谜团待解决。在应用落地时,LLMs 这种“黑箱式”的运作模式,不仅使我们难以完全信任这些模型的输出结果,也阻碍了我们对其进一步研究和优化的步伐。

2024-09-13 16:06:31 963

原创 互联网产品经理如何转AI产品经理

2024年,整个AI行业都是火爆的一年,各种AI应用、大模型层出不穷。也吸引了大量打工人转向AI这个行业。作为产品,如果想要转去AI,我们需要如何准备呢?随着人工智能技术的不断进步和应用领域的扩展,AI产品经理的需求将持续增长,越来越多的小伙伴可以从事这一职业,将有机会参与到前沿技术的应用和发展中,同时也有助于个人能力的快速成长,下面我们就一块看一下这篇文章内容吧!随着人工智能技术的发展和应用范围的扩大,越来越多的企业和行业开始认识到AI的价值,对AI产品的需求也日益增加。

2024-09-12 15:07:53 328

原创 如何成为AI产品经理

成为AI产品经理是一个充满挑战和机遇的职业道路。如果你对人工智能充满热情,并且愿意不断学习和适应新技术,那么这可能是一个适合你的职业选择。记住,成为一名优秀的AI产品经理,不仅需要技术知识,更需要创新思维和用户导向的产品设计能力。

2024-09-12 14:38:45 711

原创 AI产品经理需要哪些必备技能?如何成为AI产品经理?

我们首先得理清楚什么是AI产品经理,它和传统的互联网产品经理有什么区别。主要职责一方面是规划如何将成熟的AI技术应用在各个领域不同场景中,提升原有场景的效率或效果等;另一方面是基于业务方的需求如何用现有的AI技术或者AI技术组合予以实现,甚至有可能联合技术团队孵化新的AI软件解决方案或者AI硬件产品。AI产品经理本身也只是产品经理的一种,并没有什么特殊性。只是这些年AI相对比较火,理解AI技术需要一定的技术门槛,和传统的交互产品经理、系统产品经理等对比起来入门门槛更高。

2024-09-12 13:56:49 801

原创 本地部署资讯问答机器人:Langchain+Ollama+RSSHub 实现 RAG

Langchain 是当前大模型应用开发的主流框架之一,旨在帮助开发者构建和部署基于大型语言模型(LLM)的应用。它提供了一系列的工具和接口,使得与LLM交互变得简单。通过 Langchain,开发者可以轻松创建定制的高级应用,如聊天机器人、问答系统和多种智能应用。Langchain 的核心在于其“链”概念,这是一个模块化的组件系统,包括 Model I/O(模型输入输出)、Retrieval(数据检索)、Chains(链)、Agents(代理)、Memory(内存)、和 Callbacks(回调)。

2024-09-04 15:14:17 1027

原创 【Llama3:8b】手把手教你如何在本地部署 自己的 AI 大模型 (◍•ᴗ•◍)

为什么需要本地部署属于自己的大模型?

2024-09-04 14:18:11 1198

原创 百度石清华:我们对大模型的投入及其发展前景是笃定的

8月30日,百度副总裁石清华在2024亚布力夏季年会上表示:百度对于人工智能、大模型的投入及其发展前景是笃定的!石清华说,在大会现场能够听到客户说大模型的确有用,又能提供一些应用场景,非常开心。大模型真正产生价值这是大模型企业最希望看到的。第二大家提到希望大模型的厂商越卷越好,我认为这是一个期望,是一个鞭策,是正向积极地。第三点大家希望价格越来越低。这很关键,这说明客户愿意为价值来付费和买单,我认为这是我们大模型厂商最终追求的,能够深入业务发挥作用,最终能够被价值来定义它的含金量。

2024-09-03 16:45:23 753

原创 【包教包会】《从零开始训练自己的LLM的最佳指南》中文版免费pdf分享

该白皮书是从零开始训练自己的LLM的最佳指南,涵盖了从规模和硬件选择到数据集选择和模型训练的所有内容。它包含了训练LLM所需的所有关键步骤和考虑因素,包括数据量、数据来源、内存和计算效率的平衡、并行化技术的处理、符号化策略、模型训练中的权衡、评估模型、减轻模型偏见和有害性等方面。本白皮书旨在解决训练自己的大型语言模型(LLM)时缺乏详细信息和关键决策点的问题。尽管现在有许多团队和个人积极训练他们的LLM,但训练过程中的许多细节和关键决策点仍然主要依赖口口相传。这导致训练者很难获得充足的经验和信息。

2024-08-28 16:34:15 242

原创 迄今为止讲的最好的LLM彩色电子书

书中的图表、代码具多,十分清晰,反正是我最喜欢的一本大语言模型书籍目前~撰写的仅300页的彩色电子书《大规模语言模型从理论到实践》!SFT部分(prompt、LoRA、deepspeech等);Transformer、GPT基础、LLaMA基础;😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓。对小白和进阶都极度友好!理论+代码都很详细~强化学习(RLHF等);下面是目录,看下就知道了。极力推荐给大家一本由。训练数据介绍与分析;分布式训练代码详解;

2024-08-28 16:04:41 142

原创 星标10k,中文神书教程-《提示工程指南》免费分享!!

提示工程不仅仅涉及设计和开发提示词,还包括与大语言模型交互和开发的各种技能和技术。用户可以通过提示工程提升大语言模型的安全性,同时也可以通过引入专业领域知识和外部工具来增强大语言模型的能力。鉴于对大语言模型的浓厚兴趣,我们编写了这份全新的提示工程指南,介绍了与大语言模型相关的论文研究、学习指南、模型、讲座、参考资料,以及与提示工程相关的其他工具。提示工程是一个新兴的领域,专注于提示词的开发和优化,以帮助用户更好地利用大型语言模型(LLM)在各种场景和研究领域中的应用。

2024-08-25 18:45:00 168

原创 官方稀缺-《OpenAI大模型指南》中文版免费分享

国内不能访问OpenAI的官方网址,找到一个网友整理翻译的中文版官方指南,对于快速掌握官方API非常不错资源。我们提供了一系列不同能力级别的 模型,适用于不同任务的,并且能够 微调(Fine-tune) 您自己的自定义模型。这与大多数其他 NLP 服务不同,后者是为单个任务设计的,例如情绪分类或命名实体识别。相反,补全(Completions)和聊天补全(Chat Completions)几乎可用于任何任务,包括内容或代码生成、摘要、扩展、对话、创意写作、风格转换等。

2024-08-25 16:45:00 199

原创 神书《从零构建大模型》分享,尚未发布,GitHub标星22k!!

构建大型语言模型(从头开始)》教读者如何:规划并编码法学硕士 (LLM) 的所有部分准备适合 LLM 培训的数据集使用读者自己的数据对 LLM 进行文本分类微调应用指令调整技术确保读者的 LLM 遵循指令将预训练权重加载到 LLM 中大型语言模型 (LLM) 为 ChatGPT、Bard 和 Copilot 等尖端 AI 工具提供支持,这看起来像是一个奇迹,但它们并不是魔法。读者在本书中用于训练和开发自己的小型但功能齐全的模型的过程遵循与交付 GPT-4 等大型基础模型相同的步骤。

2024-08-24 17:14:20 147

原创 2024最新版,人大赵鑫老师《大语言模型》新书pdf分享

由于大语言模型技术的快速更迭,本书无法覆盖所有相关内容,旨在梳理最具代表性的基础知识内容,帮助读者更好地了解大语言模型技术的核心知识点,能够快速上手相关的科研与工程项目。• 评测与应用部分. 第 12 章将主要介绍面向大语言模型性能的评测方法,针对不同的能力维度介绍相关的评测集合、评测指标以及评测方法,并且指出大语言模型目前存在的问题。• 背景与基础知识部分. 第 2 章将首先介绍大语言模型的构建过程,随后介绍大语言模型相关的背景知识以及重要概念,包括涌现能力、扩展定律以及二者之间的联系与区别;

2024-08-24 16:32:31 367

原创 人工智能大模型产业创新价值研究报告

《报告》还结合当下大模型产业发展格局指出现阶段大模型落地的两大路径。通过链接知识库进行专业知识增强,打造行业大模型,或是通过增强联网的能力实时扩充大模型知识储备,大模型能够深入了解各个行业的专业知识,并将其融合到模型的学习和推理中。其细致入微的分析,广泛的行业案例以及深刻的结论,旨在揭示AI大模型的商业价值和市场潜力。着重预测了未来的发展趋势,给出了大模型产业升级的6大预判。《报告》汇总了今年上半年人工智能大模型领域的融资概况,为企业家、投资者和研究者提供了可行的发展策略和投资建议。

2024-08-24 11:59:38 202

原创 中国人工智能(AI)2024各行业应用研究报告

随着人工智能技术的迅猛发展,其在各个行业中的应用正日益广泛和深入。从制造业到医疗保健,从金融领域 到农业,人工智能正深刻地改变着我们的生活和工作方式。本报告旨在探讨人工智能在各行业中的应用现状、发展 趋势以及未来的潜力。在医疗保健领域,人工智能已经开始发挥重要作用,从辅助诊断到个性化治疗方案的制 定。在本报告中,对人工智能在各行业中的应用进行深入分析,探讨其带来的影响以及未来的发展方向。我 们希望这份报告能为各界人士提供有价值的参考,促进人工智能技术的健康发展和应用。

2024-08-24 11:54:38 314

原创 Nature深度:大模型如何“赋能”机器人?机器人又如何“训练”大模型?

对于看着《星球大战》长大的一代人来说,我们的城市和家庭中缺少像 C-3PO 一样的机器人,这令人失望。那些充满常识、能在家中和工作场所提供帮助的人形机器人在哪里?人工智能(AI)的飞速发展可能会填补这一空白。斯坦福大学机器学习和机器人学研究员 Alexander Khazatsky 说:“如果我们是最后一代没有实现这些科幻场景的人,我也不会感到惊讶。

2024-08-22 11:57:26 835

原创 大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

这是我在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个 LLM 社区最近热议的问题。他问我们 Jina Embedding 模型能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上栽了跟头。我说:“说实话,我也不确定。” 他接着详细阐述了这个问题对于他研究的重要性,并暗示:Tokenizer 可能是问题的根源,我若有所思点点头,脑海里开始构思如何用实验来找到答案。

2024-08-22 11:27:16 635

原创 没有思考过 Embedding,不足以谈 AI

这篇文章把我关于语言模型中embedding的理解都介绍完了。但embedding 还不止这些。图像可以有embedding,句子和段落也可以有 embedding —— 本质都是通过一组数来表达意义。段落的 embedding 可以作为基于语义搜索的高效索引,AI 绘画技术的背后,有着这两种 embedding 的互动 —— 未来如果有一个大一统的多模态模型,embedding 必然是其中的基石和桥梁。由 AI 掀起的时代浪潮毫无疑问地要来了,今天是一个还难以看清未来的节点。

2024-08-22 10:49:56 733

原创 AI创业一年来几个关于AI大模型的经验和认知分享

在企业AI大模型落地中,技术可行性和商业价值双重去分析判断很重要,又简单价值又高的项目和场景是很难找到的,依赖于负责人的行业领域业务专业性和对AI大模型、AIGS的充分理解。要理清传统AI(AI1.0)和AI大模型(AI2.0)的区别。很早就学习和规划AI大模型企业落地的公司是因为CEO非常有决策力,果断推动内部团队技术预研和场景落地尝试,先让自己的团队数智化转型,再去探索让自己的行业客户数智化转型。AIGC是大厂和大模型公司的竞争赛道,烧钱又费脑,TOB目前不是最好的选择。

2024-08-21 11:55:24 606

原创 【SpringAI实战】整合Llama3大模型本地私有化部署

今天分享如何在windows环境搭建私有化Llama3并使用SpringAI访问该大模型。1、安装ollama2、配置环境变量 OLLAMA_MODELS 修改模型存储位置3、下载模型执行以下命令4、测试之后就可以运行以上命令进行本地化聊天了!

2024-08-21 11:47:30 560

原创 基于Qwen2/Lllama3等大模型,部署团队私有化RAG知识库系统的详细教程(Docker+AnythingLLM)

和我们之前的大模型部署和应用过程相比,基于 AnythingLLM 的 RAG 实现整个部署过程比较繁琐,包括环境准备、Docker 安装和配置、AnythingLLM 配置等。然而,AnythingLLM 的使用过程却相对比较简单,我们只需要上传我们内部数据文件,AnythingLLM 框架屏蔽了中间的数据提取分割、向量化处理、向量索引和入库、检索召回和重组 Prompt 提示词等过程。

2024-08-21 11:41:09 699

原创 大语言模型(LLM)工作的3个步骤,一文带你搞清楚!

知其然,更要知其所以然。

2024-08-20 20:53:11 751

原创 什么是LLM?看这一篇就够了!

自从2022年12月 ChatGPT 横空面世以来,AI 领域获得了十足的关注和资本,其实AI的概念在早些年也火过一波,本轮 AI 热潮相比于之前的 AI,最大的区别在于:生成式。本文主要介绍大语言模型(Large Language Model,简称LLM)。通过海量文本训练的、能识别人类语言、执行语言类任务、拥有大量参数的模型,称之为大语言模型。

2024-08-20 20:44:43 668

原创 Agent四大范式 | 综述:全面理解Agent工作原理

Autonomous agents 又被称为智能体Agent。能够通过感知周围环境、进行规划以及执行动作来完成既定任务。在这些能力中,规划尤为重要,它涉及到复杂的理解、推理和决策制定。大语言模型出现以前,我们一般通过规则的方法,或者强化学习的方法来实现。但是这两种方法各有弊端:规则的方法是指把复杂的自然语言问题转化为规则符号,往往需要行业专家的介入,缺乏容错能力,小错误可能导致整个系统的失败。

2024-08-20 20:37:16 729

原创 什么是多模态大模型?为什么需要多模态大模型?

简单来说,所谓的多模态大模型就是一种能够理解和处理多种类型的机器学习模型——而类型也被叫做模态,包括文本,图片,音频,视频等。这种模型可以融合多种不同模态的信息,执行更复杂和智能的任务;如视觉问答(AI面试官),图文生成,语音识别与合成等。‍‍‍‍‍‍‍‍‍。

2024-08-20 20:25:16 741

原创 《深入浅出LLM基础篇》(三):大模型结构分类

编码端架构的著名的模型如BERT、RoBERTa等。这些语言模型生成上下文向量表征,但不能直接用于生成文本。可以表示为, x1:L⇒ϕ(x1:L)x_{1:L}⇒ϕ(x_{1:L})x1:L⇒ϕ(x1:L)。这些上下文向量表征通常用于分类任务(也呗称为自然语言理解任务)。

2024-08-18 14:45:00 617

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除