![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 92
机器学习社区
这个作者很懒,什么都没留下…
展开
-
不愧是快手,这 AIGC 算法面试题有点难度
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。原创 2024-07-20 09:46:18 · 678 阅读 · 0 评论 -
关于垂直领域大模型的探索和尝试
以上就是我们团队这段时间在垂类大模型的一些思考和实践。经过一年多的探索,虽然我们在不少的场景上都有突破和进展,但肉眼可见依然有很多领域尚未完善,未来有很多工作需要进一步展开,也非常欢迎大家一起交流大模型技术。原创 2024-07-20 09:40:37 · 778 阅读 · 0 评论 -
这是我见过最棒的大模型干货!!!
Transformer与Seq2Seq各自有缺点Differential Equation基础选择性状态空间模型(SSMs)Discretization, Recurrent计算The HIPPO矩阵基于Pytorch实现一个基本的Mamba块。原创 2024-07-13 09:46:45 · 816 阅读 · 0 评论 -
再升级!视频理解大模型 CogVLM2 开源
目前,视频理解的主流方法涉及使用图像编码器从视频中提取帧,对其进行编码,然后设计编码压缩模块(如时间池化或Q-Former模块)来压缩视频编码信息,再将其输入大型语言模型(LLM)以便与文本输入进行联合理解。尽管这种方法有效地压缩了视频信息,但它使模型失去了时间感知能力,无法准确地将视频帧与精确的时间戳关联起来。因此,模型缺乏时间定位、时间戳检测和总结关键时刻的能力。为了解决这些问题,我们提出了CogVLM2-Video,这是基于CogVLM2图像理解模型的扩展视频模型。原创 2024-07-13 09:09:38 · 784 阅读 · 0 评论 -
大模型知识问答: 文本分块要点总结
用较大chunk_size去字符切分文本,然后对大文本块用LLM做总结,作为摘要块加入向量数据库中。能在一定程度解决前面提到的问题1。原创 2024-07-08 22:32:39 · 1037 阅读 · 0 评论 -
大厂上来就手撕 Transformer,心凉一半。。。
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。这两天求职群分享了很多大厂的计算机视觉算法的面试真题,其中就有“手撕Transformer”:要知道近年来特别出现了很多(毕竟当前AI顶流)。这里),希望对你有所帮助。位置编码有哪些?原创 2024-07-08 22:18:17 · 605 阅读 · 0 评论 -
大模型上下文长度扩展中的检索增强技术简述
受预训练的限制,模型能够较好处理的序列长度相对固定,通常为2048、4096等等。在不改变attention计算机制的前提下,很难保证在模型能力损失较小的同时,显著扩展模型能够处理的上下文长度。并且,在长文本上训练的代价也很高,直接在长文本上从头训练一个窗口长度很长的模型较为困难。于是,我们希望模型能够在有限的处理窗口中能够关注长上下文中关键的token,获取其中的信息,从而充分利用长文本中的知识,提升处理长文本的能力。图1 基于检索增强的处理流程。原创 2024-06-30 18:22:53 · 1029 阅读 · 0 评论 -
面了英伟达算法岗,被疯狂拷打。。。
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。这两天面试群太热闹了,2025届忙着暑期实习和秋招,2024届的小伙伴已陆续分享了经验和心得,准备奔赴新的城市和新的生活了。原创 2024-06-30 18:01:05 · 1327 阅读 · 0 评论 -
评估大模型 RAG,只要 LlamaIndex 就足够了
总体而言,LlamaIndex 的评估功能可以帮助我们快速地评估 RAG 的性能,满足我们基本的 RAG 评估需求,无需借助其他第三方库。如果你正在使用 LlamaIndex 开发 RAG 应用,建议使用 LlamaIndex 内置的评估工具,使用后如果发现满足不了需求再考虑使用其他第三方评估工具。希望这篇文章可以帮助大家更好地了解 LlamaIndex 的评估功能。关注我,一起学习各种人工智能和 AIGC 新技术,欢迎交流,如果你有什么想问想说的,欢迎在评论区留言。原创 2024-06-29 09:16:57 · 1133 阅读 · 0 评论 -
一篇大模型 Agent 工具使用全面研究综述
使用大型语言模型(LLMs)进行工具学习已成为增强LLMs能力以解决高度复杂问题的一个有希望的范式。尽管这一领域受到越来越多的关注和快速发展,但现有的文献仍然分散,缺乏系统性的组织,为新来者设置了进入障碍。因此对LLMs工具学习方面的现有工作进行全面调查,从两个主要方面展开:(1)为什么工具学习是有益的;(2)如何实现工具学习,以全面理解LLMs的工具学习。根据工具学习工作流程中的四个关键阶段对文献进行了系统性审查:任务规划、工具选择、工具调用和响应生成。图1:工具学习发展轨迹的示意图。原创 2024-06-29 09:04:51 · 1051 阅读 · 0 评论 -
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。尽管 RLHF 取得了巨大成功,但是在训练过程中 RLHF 非常消耗资源。因此,近段时间学者们在 RLHF 奠定的坚实基础上,继续探索更为简单且高效的策略优化路径,催生了直接偏好优化(DPO)的诞生。原创 2024-06-27 22:08:52 · 1026 阅读 · 0 评论 -
一文梳理有效提升大模型 RAG 效果的方法
RAG 是 “Retrieval-Augmented Generation”(检索增强生成)的缩写,它通过结合检索系统和生成模型来提高语言生成的准确性和相关性。RAG 的优势在于它能够在生成响应时引入外部知识,这使得生成的内容更加准确和信息丰富,对于处理需要专业知识或大量背景信息的问题尤其有效。随着大型语言模型(LLMs)的发展,RAG 技术也在不断进化,以适应更长的上下文和更复杂的查询。目前,大部分公司倾向于使用 RAG方法进行信息检索,因为相比长文本的使用成本,使用向量数据库的成本更低。原创 2024-06-27 21:45:58 · 665 阅读 · 0 评论 -
入门 PyTorch ,这70个操作技巧就够了
掌握以上19种操作方法可以让你更好地使用 PyTorch 进行深度学习任务。这些操作方法涵盖了张量的创建、变换、数学运算、梯度计算、模型构建、数据处理等方面,是使用 PyTorch 进行深度学习的基础操作。原创 2024-06-25 21:51:00 · 1030 阅读 · 0 评论 -
大模型实战1年半,总结一下在企业落地的三个策略
理论上,我们做领域大模型,第一步是选择一个基础大模型,然后基于行业术语做一个行业大模型,然后在行业大模型的基础上再去做领域大模型,但现在我们往往是从基础大模型一步跨域去做领域大模型,但没有行业大模型的基础,没有行业语料的积淀,领域大模型的效果很难让一线满意,因此需要画大量的时间去微调,而微调大多也是领域语料的问题。例如,为了做ChatBI,我们要把公司数据分析领域的业务术语,指标口径都搜集一遍,整理好了,才有可能做出一个真正可用的ChatBI,但这种基础性工作,现在是没人做的,或者没有人体系化的去做。原创 2024-06-25 21:30:52 · 1233 阅读 · 0 评论 -
基于 Langchain 和 Streamlit,构建多 PDF RAG 聊天机器人
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。与 PDF 互动是很酷的。你可以与你的笔记、书籍和文档等进行聊天。本文将帮助你构建一个基于 Multi RAG Streamlit 的 Web 应用程序,通过对话 AI 聊天机器人来读取、处理和互动PDF数据。以下是该应用程序的工作步骤,用简单的语言进行说明。原创 2024-06-22 13:12:03 · 1038 阅读 · 0 评论 -
面了抖音 NLP 算法岗,感谢面试官的循循善诱
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。大家好,最近面试了抖音 NLP 算法岗,对面八股文我还是准备的比较充分,但代码题(数据结构和算法题),每次遇到心里都特别怕。。。虽然这些题我见过和练习过,但紧张的都忘记了思路,这次面试面试官人品很好,给了一些引导,浪费了一些时间,最后做出来了。原创 2024-06-22 13:06:14 · 1205 阅读 · 0 评论 -
评估 RAG?只要大模型框架 LlamaIndex 就足够了
总体而言,LlamaIndex 的评估功能可以帮助我们快速地评估 RAG 的性能,满足我们基本的 RAG 评估需求,无需借助其他第三方库。如果你正在使用 LlamaIndex 开发 RAG 应用,建议使用 LlamaIndex 内置的评估工具,使用后如果发现满足不了需求再考虑使用其他第三方评估工具。希望这篇文章可以帮助大家更好地了解 LlamaIndex 的评估功能。原创 2024-06-19 22:25:30 · 811 阅读 · 0 评论 -
26 种 prompt 套路,驯服大模型
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。使用自然语言前缀(prefix)或提示(prompt)来引导语言模型行为和输出的想法早在GPT-3和ChatGPT时代之前就已出现。2018年,Fan等人首次在生成式AI的语境中使用了prompt。此后,Radford等人在2019年发布的GPT-2中也采用了prompt。原创 2024-06-18 22:04:21 · 684 阅读 · 0 评论 -
港硕上岸鹅厂算法岗,谈谈感受和心得!
近期面试过的暑期这么多厂的高频提问点,如果你简历中也出现相关知识,那很可能会问哦~原创 2024-06-18 21:57:19 · 1120 阅读 · 0 评论 -
手搓大模型智能体实战经验
初次接触生成式 AI 还是之前的 GAN 和22年的 Midjourney,当时对生成式 AI 的看法是确实挺有意思,但是跟我一个做 NLP 的产品关系不大,顶多也就是玩一玩画图然后发朋友圈。彼时 NLP 在国内处于相对停滞期,用 bert 做对话系统、搭建知识图谱做推理和 KBQA,这些流程都已经很成熟和程式化了,身边也有很多曾经的 NLPer 转向了搜索推荐和更偏业务的知识库方向。原创 2024-06-16 17:19:16 · 814 阅读 · 0 评论 -
Stable Diffusion3 开源!一文教你玩转 Stable Diffusion3
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。6月13日,Stability AI 正式开源20亿参数版本的Stable Diffusion 3 Medium,为广大的开发者、研究人员以及对AI艺术充满好奇的爱好者们,开启了又一扇通往无限创意与可能性的大门。原创 2024-06-16 16:57:59 · 707 阅读 · 0 评论 -
最实用的 LeetCode 刷题指南
无论如何,刷题一定要拉长战线、养成习惯,每天最好固定一个时间,坚持做几道题目,比如我当时是每天早上还在床上躺着时,掏出手机看一道题目,然后闭着眼睛思考一会,想到解法后再起床敲。求职者在变多,岗位在变少,要求还更高了,最近社群又开始活跃起来了,各种讨论、各种卷。我把校招期间坚持刷的题目做了系统归纳和梳理,一共整理了近400道高频手撕代码原题,并添加了解题思路,注释,完整代码。最后,万事开头难,希望大家不要怀疑自己的能力,更不要怀疑自己的智商。算法和编程语言学习一样,找对方法,付出努力,一定会有进步的!原创 2024-06-15 10:27:22 · 465 阅读 · 0 评论 -
大模型 RAG 遇到幻觉内容怎么办?
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。大模型用于文本生成对话表现不错,但是一旦应用到需要密集专业知识的场景中时,就没有办法准确回复。好像一个没来听课的学霸考生,不可能什么知识都背下来(知识注入型预训练成本太大),因此这种情况下一般依赖他室友(检索器)给他准备开卷考试资料。原创 2024-06-12 23:12:31 · 772 阅读 · 0 评论 -
大模型训练太难了!
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。大家好,这里大模型训练特指基座大模型的从0开始训练,不包括在2000条数据上SFT这样的小任务。有人说大模型嘛,简单,给我卡就行,等到老板真给你买来了1000张卡你就知道有多难了,老板说,小王,卡买来了,三个月给我搞出来。原创 2024-06-12 23:04:26 · 708 阅读 · 0 评论 -
小白学RAG:大模型 RAG 技术实践总结
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。RAG (Retrieval-Augmented Generation) 是一种结合信息检索与生成模型的技术。其主要目标是通过检索大量信息并使用生成模型进行处理,从而提供更加准确和丰富的回答。RAG技术在处理大规模文本数据时表现尤为出色,能够从海量信息中迅速找到相关内容并生成合适的响应。原创 2024-06-11 22:37:45 · 1368 阅读 · 0 评论 -
字节跳动算法岗面试,问的贼细!
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。这里又整理了字节跳动的最新面试题,希望对你有所帮助。介绍SAM和变体LoRA和QLoRA微调技术介绍YOLOv9和YOLOv10Negative prompt 怎么做的?常见的分词器(Tokenizer)方法Stable Diffusion的结构与原理。原创 2024-06-11 21:51:37 · 1437 阅读 · 0 评论 -
深入理解大模型术语:参数、Token、上下文窗口、上下文长度和温度
参数、Token、上下文窗口、上下文长度和温度是 AI 大模型中重要的概念,它们决定了模型的复杂度、性能和能力。通过理解这些概念,我们可以更好地了解 AI 大模型的工作原理,并评估它们的潜力。随着 AI 技术的不断发展,AI 大模型的参数量、上下文窗口和上下文长度都在不断增长,温度控制也更加精细。这使得 AI 大模型能够在更多领域展现出更强大的能力,为我们带来更大的价值。原创 2024-06-09 12:00:55 · 1201 阅读 · 0 评论 -
Langchain 新玩法:LangGraph 赋能 RAG Agent,自适应、自校正、Self-RAG
我们将结合RAG论文中的思想形成一个RAG代理:路由:自适应RAG(论文):该框架能够动态路由问题到不同的检索方法,确保检索到最相关的信息以生成响应。回退:纠正RAG(论文):如果文档被认为与查询不相关,该机制会无缝地回退到网络搜索,确保生成准确且有上下文相关的响应。自我纠正:Self-RAG(论文):通过在LM生成中引入自我反思,该框架使模型能够修正受幻觉影响或不回答问题的答案,从而增强各项任务的事实性和多功能性。原创 2024-06-09 11:50:53 · 966 阅读 · 0 评论 -
使用 Qwen-Agent 将 8k 上下文记忆扩展到百万量级
我们在本文中介绍了利用智能体扩展模型上下文记忆的关键思路。一旦智能体准备就绪,如何合成数据便显而易见。例如,我们可以招募志愿者与智能体互动,并记录结果来构建微调数据集。此外,我们还可以利用智能体对其他方法生成的数据进行交叉验证,以确保数据质量。此外,用智能体的结果去微调模型,这个思路也适用于其他领域,比如提升模型解决大规模任务的能力。原创 2024-06-09 11:24:01 · 1285 阅读 · 0 评论 -
太炸裂了!分享9个让 PyTorch 模型训练飞快的技巧!
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。也许你仍然在使用32位精度进行计算,或者甚至只是在单个GPU上进行训练。然而,随着科技的进步,我们已经有了更好的选择。使用更高精度的计算,如16位浮点数或混合精度,可以提高训练速度并减少内存消耗。同时,利用多个GPU进行并行训练,可以大大加快训练过程。原创 2024-06-08 09:50:22 · 1109 阅读 · 0 评论 -
阿里大模型 Qwen2 正式开源,性能全方位包围Llama-3
Qwen2依然很硬核,全面开源,模型又多效果又好,不枉费期待那么久。因为前一段时间Qwen2-72B-Instruct模型已经在竞技场上了,期待后面对战榜上的效果,有望成为开源第一。开源真的越来越好了,现在有种莫名的幸福感。原创 2024-06-08 09:33:33 · 676 阅读 · 0 评论 -
五个超实用的 ChatGPT-4o 提示词
这里介绍的提示词只是 GPT-4o 的冰山一角,GPT-4o 还有更多强大的功能会在未来陆续开放,我们可以期待 GPT-4o 在更多领域的应用,为人类创造更多惊喜和便利。关注我,一起学习各种人工智能和 AIGC 新技术,欢迎交流,如果你有什么想问想说的,欢迎在评论区留言。原创 2024-06-06 22:48:13 · 1187 阅读 · 0 评论 -
大模型高级 RAG 检索策略之混合检索
混合检索也叫融合检索,也叫多路召回,是指在检索过程中,同时使用多种检索方式,然后将多种检索结果进行融合,得到最终的检索结果。混合检索的优势在于可以充分利用多种检索方式的优势,弥补各种检索方式的不足,从而提高检索的准确性和效率,下面是混合检索的流程图:首先是问题查询,这一过程的设计可以简单也可以复杂,简单的做法是直接将原始查询传递给检索器,而复杂一点的做法是通过 LLM(大语言模型)为原始查询生成子查询或相似查询,然后再将生成后的查询传递给检索器。原创 2024-06-06 22:42:09 · 1632 阅读 · 0 评论 -
一文彻底讲透 PyTorch
第零章:前置知识人工智能简史相关评价指标常用包的学习Jupyter相关操作第一章:PyTorch的简介和安装PyTorch简介PyTorch的安装PyTorch相关资源简介第二章:PyTorch基础知识张量及其运算自动求导简介并行计算、CUDA和cuDNN简介第三章:PyTorch的主要组成模块思考:完成一套深度学习流程需要哪些关键环节基本配置数据读入模型构建损失函数优化器训练和评估可视化第四章:PyTorch基础实战。原创 2024-06-02 10:38:06 · 721 阅读 · 0 评论 -
ChatTTS:一款专为对话场景设计的文本转语音开源大模型
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。ChatTTS 是一个专门为对话场景设计的文本转语音模型,例如众所周知的GPT-4o这样的LLM助手对话任务。原创 2024-06-01 23:36:04 · 1236 阅读 · 1 评论 -
卷了半个月,终于上岸腾讯 ai lab 算法岗(大模型方向)
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。原创 2024-06-01 08:44:38 · 678 阅读 · 0 评论 -
图解 Bert
用最简单的话语概括 BERT 的重要思想1.BERT 模型架构利用 Transformer 编码器堆栈结构,是一种能进行文本双向嵌入的语言模型。2.BERT的 tokenization 采用的是 WordPiece 的方式,Embedding 是 Token Embeddings、Segment Embeddings、Position Embeddings 三者的叠加。3.BERT 使用“预训练+微调”的方式用于分类、问答、NER 等 NLP 下游任务;原创 2024-05-30 21:16:18 · 1338 阅读 · 0 评论 -
图解 transformer——注意力计算原理
Query 和 Key 之间的点积计算出每对词之间的相关性。然后,这种相关性被用作一个 "因子 "来计算所有 Value 向量的加权和。该加权和的输出为注意力分数。Transformer 通过对嵌入向量的学习,使彼此相关的词更加一致。这就是引入三个线性层的原因之一:为 Attention module 提供更多的参数,使其能够通过学习调整词向量。原创 2024-05-30 15:02:12 · 1034 阅读 · 0 评论 -
图解 Transformer——功能概览
作为系列文章的第一篇,本文介绍了 Transformer 的整体架构,以及训练、推理的过程。下一篇文章将深入到 Transformer 的各层,从数据流转的过程,介绍 Transformer 各层的原理及作用。原创 2024-05-30 14:54:41 · 664 阅读 · 0 评论 -
图解 transformer——逐层介绍
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。词嵌入层位置编码层多头注意层前馈层两个多头注意层前馈层线性层Softmax层。为了深入理解每个组件的作用,在翻译任务中 step-by-step 地训练 Transformer。原创 2024-05-30 14:51:59 · 1327 阅读 · 0 评论