- 博客(797)
- 收藏
- 关注
原创 大模型训练实战经验总结
用了大量的行业数据,模型怎么反而变弱了?比如,对一个回答问题能力不错的模型,用大量数据做指令微调以后,模型变得不会回答问题了。对这个问题,正好做了不少实验,也和周边很多有实践的人讨论了这方面的问题。
2024-11-01 10:43:48 614
原创 拿去吧(忙人专属)!谁能拒绝5分钟看完耗时13天的从零构建大模型实践干货呢|从零手搓中文大模型
走过路过不要错过,关注+星标第一时间获取最新进度(或者前来催更🤣)这个系列陆陆续续更新了13期,总算是在上把大模型的训练流程走了一遍。在64G内存 +3090 Ti单卡配置上完成了以下的主要内容:1. 预训练数据的预处理:批量并行的SFTSFTLoRADPODPO过程中也不乏许多对和的深入阅读和理解,以及一些的学习/复习。无论效果好坏,细节是否到位,自己还是觉得收获颇丰的,这一期打算做个大汇总,也算是给这段学习一个完整的交代,同时方便有需要的小伙伴查阅。
2024-11-01 10:41:54 929
原创 为什么垂直领域 AI Agent 是下个十亿美金 SaaS的机会?
随着大语言模型变得指数级地更好,我们可以看到,垂直领域的AI Agent 将会是下一代价值十亿美元 SaaS 公司的关键。在这期节目中,主持人与YC校友、Casetext 联合创始人兼 CEO Jake Heller 探讨了如何打造一家成功的垂直领域 AI公司,以及如何在这个过程中打破资深行业专家和围观者的质疑的故事。
2024-10-31 21:36:58 866
原创 简单Agent智能体的搭建
在上一篇《智能转型:券商行业Agent平台的创新之路》一文中,介绍了AI Agent的行业现状,以及Agent平台提供的能力和定位。针对不同复杂度的业务场景应用(简单Agent智能体、复杂Agent智能体、进阶Agent智能体),Agent平台对应提供了相关的产品功能和技术能力。本文将围绕简单Agent智能体搭建涉及到的对用户的技能的要求、底层技术的要求、Agent平台功能的要求等进一步深入探讨。
2024-10-31 21:33:03 691
原创 从训练一个小模型开始,大模型太复杂小模型刚刚好
从训练一个小模型开始,大模型太复杂小模型刚刚好有句老话叫眼高手低,最近发现有些人就是眼高手低的现实案例,在什么都不懂的情况下就想搞大模型,小模型还看不上。但其实最好的方式是从一个小模型开始,至于原因就是因为小模型相对比较简单一点,其次就是硬件要求较低,普通人能够玩的转。从小模型开始为什么建议大家从小模型开始,特别是一些开源小模型?之所以建议大家刚开始以小模型为主,原因就是因为从技术原理来说,大模型和小模型没有本质上的区别;只不过大模型和小模型由于量变导致的质变,大模型的复杂度与小模型不能同日而语。
2024-10-30 11:10:50 279
原创 Langchain 推出OpenAI-canvas开源项目,革新写作与编程界面体验
前有 Ai-artifacts 实现 Claude Artifacts 功能,后有 Open-canvas。OpenAI-canvas 刚发布几天,开源的 Open-canvas 就快速跟进,果然只要闭源,就有开源的平替。OpenAI-canvas 直接改写了写作和编程的规则,全新界面,早已不只是简单对话框,而是智能搭档。写作也好,编程也罢,全是全新的合作体验。和 ChatGPT 搭档,论文写完了可以给Chatgpt挂个二作不?哈哈。
2024-10-30 11:04:01 354
原创 九大国产AI模型助力,共筑6亿国民的人工智能梦想
AI大模型都建立在深度学习技术之上,主要利用神经网络架构。它们通过分析海量数据来学习语言模式、知识表示和任务执行策略。每个模型的独特之处体现在其网络结构、训练数据的选择和优化方法上,这些因素决定了它们在不同任务中的表现。这九大AI模型各有所长:Kimi、智谱清言、通义千问和文心一言在通用AI能力方面表现突出,应对广泛的语言处理任务。豆包、秘塔和腾讯元宝在各自的专业领域(如特定行业知识、隐私保护、游戏AI)有独特优势。天工AI和讯飞星火在自我优化和语音处理等领域展现出巨大潜力。
2024-10-29 13:53:22 794
原创 揭秘llama-assistant:构建强大的本地化人工智能助手
llama-assistant是一个由Llama 3.2驱动的AI助手,它具有强大的功能,可以识别语音、处理自然语言,并根据用户的命令执行各种操作。无论是文本总结、句子改写、回答问题,还是写邮件等任务,它都能轻松应对。
2024-10-29 12:03:12 673
原创 深入探索15项顶尖RAG技巧:从预检索到生成阶段全面增强RAG性能
随着检索增强生成(RAG)系统的快速发展,它为增强对话式 AI 和其他生成式 AI 应用提供了许多机会。本文的实验和研究突显了先进的 RAG 技术在以下方面的潜力:信息密度检索准确性用户响应质量如果正确实施,这些技术可以为企业带来更高的成本效益,并改善客户体验。但为了跟上快速涌现的最佳实践,软件工程师和数据科学家需要及时、可信赖的资源作为参考。
2024-10-28 11:30:16 372
原创 全网爆火神书《从零构建大模型》分享,尚未发布,GitHub标星22k!
从零构建大模型》是一本即将于今年10月底发布的书籍,github已经吸引了惊人的21.7k标星!作者是威斯康星大学麦迪逊分校的终身教授,在GitHub、油管、X上拥有大量粉丝,是一位真正的大佬。
2024-10-28 11:23:04 1799
原创 打造自己的RAG解析大模型:(可商用)智能文档分析解决方案!
经过实际体验,PaddleX 的安装和发布确实比以往的开源项目 PaddleOCR 要简便许多。完成安装后,您不仅获得了 PaddleOCR 的功能,还同时集成了六大模块,包括。
2024-10-26 13:57:36 638
原创 AnythingLLM+Ollama,能否定制独一无二的个性化AI助手?
AnythingLLM是一个AI聊天系统,它允许用户构建自己的私人ChatGPT。与依赖云服务的AI工具不同,AnythingLLM支持本地开源和商用闭源的大语言模型(LLM),用户可以根据自己的需求和预算选择合适的模型。
2024-10-26 11:43:34 554
原创 手把手教你搭建本地知识库问答AI机器人
没有知识库喂养的AI,就像一个刚出大学校门的学生,有潜力但很多实际问题无法回答,而经过本地知识库加持的AI,那才是特定领域的专家,可以成为你的良师益友,协助你更好的解答实际问题。现在的ChatGPT和Claude等AI都支持上传文档回答问题,但不是每个人都能使用。国内的大模型也有文档功能,测试下来效果不是很好。还有一点,不管国内还是国外的AI,允许上传的文档数量有限制,一般只允许上传一个文档提问,Claude属于比较慷慨,大概也只能上传10个文档。
2024-10-25 14:05:49 852
原创 必知!5大AI生成模型
随着Sora、diffusion等模型的大热,深度生成模型再次成为了研究的焦点。这类模型,作为强大的机器学习工具,能够从输入数据中学习其潜在的分布,并生成与训练数据高度相似的新样本。其应用领域广泛,包括计算机视觉、密度估计、自然语言和语音识别等,为无监督学习提供了新的思路和方法。本文将对几种常用的深度生成模型进行详细介绍,分析不同生成模型的原理差异及联系:VAE(变分自编码器)、GAN(生成对抗网络)、AR(自回归模型 如Transformer)、Flow(流模型)和Diffusion(扩散模型)。
2024-10-25 11:49:59 1006
原创 大模型技术进阶路线,有了基础应该怎么进阶?
高性能大模型的打造,是一项复杂的系统性工程在上一篇文章中讲了学习大模型的基础路线,而如果是对有一定基础的人来说,应该怎么进阶呢?也就是说大模型更加高级的技术栈有哪些?一个好的基础能够让你在学习的道路上事半功倍,但绝对不是学习的终点,大模型技术也不外如是。大模型的进阶学习路线在上一篇的文章中介绍了大模型的基础学习路线,比如基础理论,编程,深度学习框架等等。以上技术都属于大模型技术的基础,不论是做学术研究,还是个人学习都已经足够;
2024-10-24 10:24:04 972
原创 大模型学习路径 | 3:大模型的数据采集——搜罗知识的艺术
—一、模型为什么需要数据?数据的作用是什么?二、大模型的所需数据与普通模型所需数据的区别和要求三、大模型所需数据的类型及采集挑战四、数据采集的技术分类五、常用的大模型数据采集工具六、确保大模型数据的质量和准确性七、大模型数据质量的评估指标八、合法的数据采集渠道九、数据采集过程中的隐私和版权问题十、如何保障数据采集过程中的质量。
2024-10-24 10:22:41 665
原创 2024大模型面试八股(含100道答案)收藏这一篇就够了!
最近秋招正在如火如荼地进行中,看到很多人的简历上都包含大模型相关的工作,各家大厂和初创都很舍得给钱,动辄百万年包也变得不再稀奇。因此在大模型纵横的这个时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。本文总结了,篇幅限制,完整版添加下方领取!1、目前主流的开源模型体系有哪些?Transformer体系:由Google提出的Transformer 模型及其变体,如BERT、GPT 等。
2024-10-22 11:22:29 1665
原创 九大热门开源大模型Agent 框架,你知道几个?
在人工智能领域,AI Agent 扮演着关键角色,能够模拟人类的智能行为。近年来,开源社区涌现出多个优秀的 AI Agent 框架,本文将介绍九种备受关注的开源AI Agent框架,包括AutoGPT、AutoGen、Langfuse、ChatDev、BabyAGI、CAMEL、SuperAGI、MetaGPT和ShortGPT。这些框架为开发者提供了丰富的资源和工具,为智能应用的开发和创新提供了强大支持。
2024-10-21 14:00:33 1000
原创 AI入门者的深度学习模型探索之旅!
导读写这篇文章的初衷:作为一个AI小白,把我自己学习大模型的学习路径还原出来,包括理解的逻辑、看到的比较好的学习材料,通过一篇文章给串起来,对大模型建立起一个相对体系化的认知,才能够在扑面而来的大模型时代,看出点门道。为什么要写这篇文章?首先我关注到了两个变化。
2024-10-18 11:26:40 1023
原创 大模型指南:轻松上手大模型学习之路(附赠AI大模型资源)
这个问题,是个热门话题,但不是个好问题。因为,它基于不同的提问人、提问意图,会有不同的答案。对于一个职业发展初期的新人,提问的意图可能是:我要不要转行去大模型赛道,从而可以获得更快的职业发展?让我三年内直达 P8?对于一个职业发展晚期的"35岁危机"者,提问的意图可能是:我要不要转行去大模型赛道,从而可以避免被裁?可以给我职业生涯续命 10 年?
2024-10-18 11:23:54 806
原创 GraphRAG: 解锁大模型对叙述性私有数据的检索能力(中文翻译)
写在最前面在前一段时间,微软开源的GraphRAG引起了一些轰动,我看了很多资料,其中最有价值应该是这篇微软自己的博客:https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/文章内容详实,因此尝试将其翻译成中文,希望这能帮助到更多需要相关信息的人。由于译者水平有限,翻译过程中难免会有错误,还请大家多多包涵。
2024-10-16 11:25:10 941
原创 处理长文本提取的三种策略:分块、RAG和选择大上下文窗口模型
处理长文本的策略各有优缺点,选择合适的策略需根据实际应用场景。推荐进一步学习RAG和向量检索技术。
2024-10-16 11:14:48 1010
原创 掌握大模型技术攻略——在实践中深入探索大模型
在技术学习的过程中,有时会陷入一个误区,那就是一心扑在技术上;然后也不知道技术有什么用,该怎么用。在学习大模型的过程中也是如此,有时钻牛角尖陷入技术无法自拔;但是,如果真的让你用大模型的技术去解决业务问题,这时自己又开始傻眼了。因为不知道怎么把技术和业务相结合,也就是说学了技术但又不知道该怎么用。王阳明的心学核心思想就是——知行合一,在行中知,在知中行。技术人员有一个很大的问题就是,技术至上的心态。
2024-10-15 14:34:17 833
原创 3分钟微调大模型!快速微调Llama3.1-8B
AI浪潮席卷全球并发展至今已有近2年的时间了,大模型技术作为AI发展的底座和基石,更是作为AI从业者必须掌握的技能。但是作为,相信大家也有一颗想要训练或微调一个大模型的心,但是苦于技术门槛太高,无从下手。今天教大家一个非常快速的方法,5分钟就可以让你快速上手去微调一个大模型。还不赶紧去试试!什么是模型微调?大模型微调(Fine-tuning)是指在已经预训练好的大型深度学习模型基础上,使用新的、特定任务相关的数据集对模型进行进一步训练的过程。这里我们用的微调方式选择的是Lora。
2024-10-15 11:42:30 705
原创 AI产品经理:从零基础到精通,一篇掌握必备技能
ChatGPT爆火后,有人就预言“所有行业都值得用AI重做一遍”,而头一个被AI浪潮吹到的领域,非产品届莫属了。从去年底开始,全球各大企业就处于空前的人AI招聘狂潮中,一些公司甚至不惜开出接近七位数的年薪来雇佣顶尖人才。亚马逊人工智能高级产品经理的薪酬达到了34.03万美元;Match Group旗下的在线约会平台Hinge招聘人工智能副总裁,基础年薪为33.2万至39.8万美元;著名兼职平台Upwork,人工智能副总裁一职的年薪为26万至43.7 万美元;
2024-10-14 11:44:11 1770
原创 大模型对程序员的工作有什么帮助?场景案例分享
随着人工智能技术的不断发展,大模型在软件开发中的应用越来越广泛。这些大模型,如GPT、文心一言、讯飞星火、盘古大模型等,可以帮助程序员提高工作效率,加快开发速度,并提供更好的用户体验。本文将介绍我在实际工作中经常使用大模型的三个场景,展示如何在程序员的工作中使用大模型来提效。
2024-10-14 11:39:33 1008
原创 新手指南:零基础快速掌握大模型技术——从入门到精通!
师父领进门,修行在个人有两个成语,一个是事半功倍,一个是事倍功半;为什么会有这种情况?原因就是方式方法的问题,有些人掌握了正确的方法就会觉得做什么事都顺风顺水,事半功倍;而有些人使用了错误的方法,做什么都有问题,就出现了事倍功半。学习更是如此,有些人掌握了学习的技巧,天天玩但成绩又特别好。大模型学习方式方法总结人工智能技术虽然不能说是一个完全新兴的领域,但也是在最近两年得到爆发式的发展,而且对大部分人来说,人工智能技术还属于一个新兴的领域。
2024-10-12 11:23:46 867
原创 大模型LLM探究:开源框架的技术发展路径与未来趋势
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 知乎作者 | 晴天。
2024-10-12 11:17:13 981
原创 基于LaMA-Factory微调llama3.1-8B
大模型的训练目前主要分为和,受限于资源算力等原因,实际工作中更多用到的是。对于普通用户来说SFT仍然具备较高的门槛,需要了解一定的理论基础,准备用于微调的数据,由于不同基座模型相应的微调方法也不一样,需要对超参数优化等其他问题这里推荐使用LaMA-Factory支持多种模型:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Qwen2-VL、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。
2024-10-11 11:08:22 884
原创 11银行37场景,大模型在国有大行中的典型应用,运营商政企金融行业机会涌现
在科技飞速发展的今天,大模型正逐渐成为银行领域创新的强大驱动力。以下为大家介绍十一个银行在大模型应用方面的典型案例。一、中国银行银行名称:中国银行应用场景:内部知识服务、辅助编码场景主要内容及作用:通过大模型为内部员工提供知识服务,方便员工快速查询各类业务信息和专业知识,提高工作效率。在辅助编码方面,能够帮助技术人员更高效地进行软件开发和系统维护。二、工商银行银行名称:工商银行应用场景:座席助手、网点员工智能助手场景。
2024-10-11 11:05:04 462
原创 点到为止|大模型微调的100个关键点
在大模型浪潮初期,我和我的前辈曾经有过一段对话。我:这工作(某个方向的 sft)交给我合适吗,我能胜任吗?前辈:这工作谁都能做。我:那你为啥选我来做?前辈:这不是因为我认识你,跟你熟悉嘛。我:……前辈:你做不做,不做有的是人想做,不行我招个实习生来做。我:我做我做,我当然做。
2024-10-10 11:53:49 1003
原创 AI大模型开发实战:如何构建京东自有RAG知识库系统
RAG(Retrieval-Augmented Generation)意思是“检索增强的生成”。这是一种结合检索(Retrieval)和生成(Generation)的机器学习模型,通常用于自然语言处理任务,如文本生成、问答系统等。在AI大模型开发实战中,搭建自有的RAG知识库对系统具有十分重要意义,可以提升模型的回答准确性、增强领域专业性、提高响应速度、保护数据隐私、实现个性化服务,并持续优化和改进大模型的性能。
2024-10-10 11:53:01 816
原创 专为语言学习设计的大模型汇总盘点
随着人工智能技术的飞速发展,大语言模型在语言学习中的应用日益广泛。相较传统的语言学习方式(比如报班、刷题和看外语剧等等),大语言模型在成本投入、学习效率、便捷性和灵活性等方面都有着绝对的优势。这些模型可以从多个维度帮助语言学习者:1.提供即时反馈:大语言模型可以对学习者的句子进行语法和语义分析,提供即时纠正和建议,帮助学习者提高语言的准确性。2.对话练习:学习者可以与模型进行对话练习,模拟真实交流环境,增强口语.3.词汇扩展:模型可以根据学习者的需求,提供丰富的词汇和表达方式,帮助学习者扩展词汇量。
2024-10-09 11:46:11 994
原创 多模态大型模型探索手册——从入门到进阶
如表1所示,对26 SOTA MM-LLMs的架构和训练数据集规模进行了全面比较。随后,简要介绍这些模型的核心贡献并总结了它们的发展趋势。代表了一系列视觉语言 (VL) 模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。(2)BLIP-2引入了一个资源效率更高的框架,包括用于弥补模态差距的轻量级 Q-Former ,实现对冻结 LLMs 的充分利用。利用 LLMs,BLIP-2 可以使用自然语言提示进行零样本图像到文本的生成。(3)LLaVA。
2024-10-09 11:33:45 1174
原创 普通产品经理转AI产品经理,需要做哪些准备?
我认为的Ai产品经理,其实它是在通用产品经理的基础上,增加了一个显著能力,就是如何运用现有的AI技术去帮助客户解决问题,并在原有工作效率,或用户体验上起到增强的效果。
2024-10-08 11:55:18 2027
原创 使用LangChain创建强大的CSV数据交互Agent
本文介绍了如何利用LangChain中的CSV Agent实现与CSV文件的高效交互,并提供了详细的环境搭建和代码示例。希望这能帮助你在数据处理和分析中更高效地工作。
2024-10-07 11:28:27 887
原创 Java已死,大模型才是未来?
在数字技术的浪潮中,编程语言始终扮演着至关重要的角色。Java,自1995年诞生以来,便以其跨平台的特性和丰富的生态系统,成为了全球范围内开发者们最为青睐的编程语言之一然而,随着技术的不断进步和新兴语言的崛起,近年来,“Java已死”的论调开始不绝于耳。尤其是在大模型技术迅猛发展的今天,Java的地位似乎更加岌岌可危。然而,事实真的如此吗?Java的春天,真的已经渐行渐远了吗?本文将从多个维度深入探讨Java的现状、大模型技术的影响,以及Java与大模型融合的可能性,为读者提供一个更为全面和深入的视角。
2024-10-07 11:25:51 1035
原创 AI赋能教育:讯飞星火、通义千问、天工AI、豆包AI、GPT-4O、商汤AI、文心一言等AI大模型应用(带链接)
随着科技的飞速发展,人工智能已逐渐融入我们的日常生活,成为不可或缺的一部分。在教育领域,AI 的赋能潜力更是巨大。目前,文心一言、讯飞星火、通义千问、天工 AI、百川 AI、豆包 AI、GPT - 4O、商汤 AI、kimi、360 智脑、腾讯混元助手、紫东太初等多款 AI 大模型备受关注。本文将为您详细介绍这些 AI 大模型的功能与特长,并附上它们的官方链接。以上多款 AI 大模型在教育中的应用,极大地提高了教学效率和质量,为个性化、智能化教育提供了有力支持。
2024-10-06 11:48:48 1018
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人