![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP与大模型
文章平均质量分 93
介绍NLP和大模型方向
大模型与自然语言处理
这个作者很懒,什么都没留下…
展开
-
小白学RAG:架构、策略和应用
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。大型语言模型(LLMs)在语言理解和生成方面展示了革命性的能力,但它们仍然面临着一些固有的局限性,比如幻觉和过时的内部知识。原创 2024-07-20 23:25:21 · 512 阅读 · 0 评论 -
大模型处理29个NLP任务的39种prompt策略总结
我们来看看大模型在特定任务上的雕花,来看个NLP里面的prompt工程总数,《A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks》(https://arxiv.org/abs/2407.12994),**阅读并呈现了44篇研究论文的综述,其中讨论了29个不同NLP任务上的39种不同的提示方法。原创 2024-07-20 23:22:08 · 712 阅读 · 0 评论 -
一文细数大模型 RAG 十二大痛点及解决方案
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。检索增强式生成(RAG)是一种使用检索提升语言模型的技术。具体来说,就是在语言模型生成答案之前,先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程。这种技术能极大提升内容的准确性和相关性,并能有效缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。原创 2024-07-13 10:07:37 · 907 阅读 · 0 评论 -
2年大模型微调炼丹心得总结
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。原创 2024-07-13 08:58:57 · 911 阅读 · 0 评论 -
自然语言处理(NLP)-BERT 实战-模型微调-情感分析
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。本篇我们使用微博数据集(weibo_senti_100k)进行训练,此数据集已经进行标注,0: 负面情绪,1:正面情绪。数据集共计82718条(包含标题)。如下图:下面我们使用bert-base-chinese预训练模型进行微调并进行测试。原创 2024-06-29 10:34:31 · 869 阅读 · 0 评论 -
最终还是放弃了拼多多 NLP 算法岗(大模型方向)Offer。。。
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。分享一位群友面拼多多NLP算法岗(大模型方向)的面经,这位同学是有两个 Offer 机会,一个是国企,一个是互联网企业。考虑到互联网的 996 内卷和当下的就业环境,最后去了国企,放弃了这家企业最长递增子序列(LIS)的算法可以通过动态规划实现。该函数使用一个数组dp。原创 2024-06-29 10:26:06 · 838 阅读 · 0 评论 -
如何使用大模型进行文本分类任务?
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。文本分类是自然语言处理(NLP)中的一项基础任务,应用范围从情感分析到内容分类。传统上,它需要大量的数据预处理、特征工程和模型训练。大型语言模型的出现彻底改变了这一过程,提供了一种强大且高效的替代方案。原创 2024-06-27 21:58:07 · 1088 阅读 · 0 评论 -
面了拼多多大模型算法岗,被疯狂拷打。。。
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。方向:大模型算法工程师(TEMU电商平台)整个面试持续了1小时10分钟,能够看出面试官是典型搞技术的,问的很专业又很细,全程感觉压力好大,面完后感觉丝丝凉意。。。我太菜了,也没有认真准备,最后凉了,分享面经希望能帮到大家~原创 2024-06-27 21:52:46 · 839 阅读 · 0 评论 -
一文彻底搞懂 BERT 模型
2018 年是机器学习模型处理文本(或者更准确地说,自然语言处理或 NLP)的转折点。我们对这些方面的理解正在迅速发展:如何最好地表示单词和句子,从而最好地捕捉基本语义和关系?此外,NLP 社区已经发布了非常强大的组件,你可以免费下载,并在自己的模型和 pipeline 中使用(今年可以说是 NLP 的 ImageNet 时刻,这句话指的是多年前类似的发展也加速了 机器学习在计算机视觉任务中的应用)。ULM-FiT 与 Cookie Monster(饼干怪兽)无关。但我想不出别的了…原创 2024-06-25 22:19:32 · 752 阅读 · 0 评论 -
这是我见过最全的 Transformer 模型解读了(代码+注释+讲解)
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。本篇正文部分约,我将分模块解读并实践了Transformer,无论是常规算法面试,还是大模型算法面试,都属于常考点,建议。原创 2024-06-25 22:13:31 · 1559 阅读 · 0 评论 -
本科生大厂算法岗实习经验复盘:从投递到面试的底层思维!
自我介绍是仅次于项目的最重要部分,通常限定在一分钟左右。首先,用一句话简洁地介绍自己,包括学校、年级、专业和方向。然后,重点突出你的项目经验,一定要详略得当,不要重复简历内容。主要思路是:我在这个项目做了什么+提升了什么能力 (e.g. 我在伯克利的时候有一个xxx的nlp项目,主要积累了全流程的nlp项目经验,包括数据获取、数据处理、模型训练等),不用太长一句话就好。如果项目太多,可以选择三四个你认为最重要的来介绍,可以按照重要性或时间顺序来排序。原创 2024-06-22 20:04:54 · 876 阅读 · 0 评论 -
对于初学者,该如何选择大模型框架 LlamaIndex 与 LangChain ?
LlamaIndex 最适合初学者寻找简单、用户友好的框架,并提供清晰的文档和实际示例。此外,LlamaIndex 非常擅长处理数据。如果你正在寻找一个更强大、更灵活、具有广泛定制选项的框架,你应该选择 Langchain,记住学习曲线陡峭。通过考虑这些详细方面,你可以就哪种框架最适合你的需求和专业水平做出更明智的决定。原创 2024-06-22 14:59:37 · 1068 阅读 · 0 评论 -
大模型算法岗 100 道面试题(含答案)
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。截至目前,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。1、目前主流的开源模型体系有哪些?Transformer体系:由Google提出的Transformer 模型及其变体,如BERT、GPT 等。原创 2024-06-16 16:48:02 · 1214 阅读 · 0 评论 -
LLaMA Factory 实战:单卡 3 小时训练专属大模型 Agent
LLaMA Factory 在今后还将不断升级,欢迎大家关注我们的 GitHub 项目。同时,我们也将本文的模型上传到了 Hugging Face,如果您有资源,一定要亲自动手训练一个大模型 Agent!原创 2024-06-16 16:39:14 · 770 阅读 · 0 评论 -
大模型预训练中的数据处理及思考
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。大模型预训练需要从海量的文本数据中学习到充分的知识存储在其模型参数中。预训练所用的数据可以分为两类。一类是网页数据(web data),这类数据的获取最为方便,各个数据相关的公司比如百度、谷歌等每天都会爬取大量的网页存储起来。原创 2024-06-12 23:39:18 · 1547 阅读 · 0 评论 -
如何从零训练多模态大模型(预训练方向)
参考 Finetune LLaVA on Custom Datasets[13]将训练样本以列表的形式保存到 json 文件,其中每一个样本是一个字典,它至少包含三个字段:id:全局唯一的字符串image:图片的路径,可以是绝对路径,也可以是相对于image_folder的相对路径conversations:人类和语言模型的对话},},},...完成数据的处理后,修改 finetune.sh[14] 中的 data_path 参数(必须)以及其他想要调整的参数(可选,例如学习率)。原创 2024-06-12 23:28:47 · 1669 阅读 · 0 评论 -
网易 NLP 大模型实习面试题8道|含解析
通过在训练过程中向输入文本中添加噪声,并要求模型重建无噪声的文本,Bart可以学习到更好的文本表示和重构能力,从而提高生成文本的质量和准确性。Bart模型使用了自回归解码器,通过训练一个自编码器来重构原始文本,同时采用了标准的语言模型预训练目标,从而使得生成的文本更加流畅和连贯。CLIP (Contrastive Language-Image Pretraining): 结合了图像和文本的对比学习,通过训练一个模型,使其能够根据图像和文本之间的相互关系进行推理,实现了图像与文本之间的联合理解和表示学习。原创 2024-06-11 23:29:10 · 1124 阅读 · 0 评论 -
小白学NLP:T5 模型加载与微调
T5(Text-to-Text Transfer Transformer)是谷歌提出的一种通用的预训练语言模型,旨在统一自然语言处理任务的输入和输出。原创 2024-06-11 22:43:39 · 1052 阅读 · 0 评论 -
一文详解大模型微调全流程
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。原创 2024-06-10 11:14:26 · 1265 阅读 · 0 评论 -
30分钟吃掉 Pytorch 转 onnx
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。PyTorch 是一个用于机器学习的开源深度学习框架,而ONNX(Open Neural Network Exchange)是一个用于表示深度学习模型的开放式格式。ONNX是一个跨平台的格式,支持多种深度学习框架,包括PyTorch、TensorFlow等。原创 2024-06-09 13:30:15 · 1243 阅读 · 0 评论 -
AnythingLLM:私人 ChatGPT,构建专属知识库,本地代码库问答助手
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天分享如何用大模型+本地资料,构建专属知识库。开源地址:https://github.com/Mintplex-Labs/anything-llm核心解决的是大模型的问题。我们都知道,大模型对于自己不知道的问题可能会乱答。原创 2024-06-09 13:16:47 · 1069 阅读 · 0 评论 -
如何微调 Llama 3 进行序列分类?
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。大型语言模型以其文本生成能力而闻名。在预训练期间,它们接受了数百万个标记的训练。这将有助于大型语言模型理解英文文本并在生成期间生成有意义的完整标记。自然语言处理中的另一个常见任务是序列分类任务。在此,我们将给定的序列分类为不同的类别。原创 2024-06-09 00:06:52 · 1331 阅读 · 0 评论 -
如何使用 Python 进行文本挖掘?
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。我们知道,各种形式的书面交流,如社交媒体和电子邮件,都会产生大量非结构化的文本数据。这些数据包含有价值的见解和信息。然而,手动从大量原始文本中提取相关见解是非常费力且耗时的。文本挖掘解决了这一难题。原创 2024-06-09 00:06:17 · 659 阅读 · 0 评论 -
使用 HuggingFace 中的 Trainer 进行 BERT 模型微调,太方便了!!!
本文介绍了如何使用HuggingFace中的Trainer对BERT模型微调。可以看到,使用Trainer进行模型微调,代码较为简洁,且支持功能丰富,是理想的模型训练方式。原创 2024-06-08 10:35:01 · 897 阅读 · 0 评论 -
基于大模型 Gemma-7B 和 llama_index,轻松实现 NL2SQL
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。本文将会介绍Text to SQL相关的概念,如何使用大模型SFT实现Text to SQL,最后介绍Text to SQL的应用场景。原创 2024-06-08 10:24:46 · 982 阅读 · 0 评论 -
大模型的 Embedding 模型该如何进行微调?
本文重点介绍了如何使用 Sentence Transformers 对开源的Embedding模型进行微调,并验证Embedding模型微调后的效果。Sentence Transformers 是一个宝库,它介绍了关于Embedding模型方方面面的内容,是了解、深入Embedding模型必不可少的工具。后续笔者将会介绍Embedding模型量化、俄罗斯套娃嵌入模型(Matryoshka Representation Learning, MRL)等相关方面的内容。原创 2024-06-07 23:46:24 · 1491 阅读 · 0 评论 -
多模态大语言模型综述
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。去年以来,我们见证了以 GPT-4V 为代表的多模态大语言模型(Multimodal Large Language Model,MLLM)的飞速发展。为此我们对综述进行了重大升级,帮助大家全面了解该领域的发展现状以及潜在的发展方向。MLLM 发展脉络图。原创 2024-06-06 23:20:06 · 1175 阅读 · 0 评论 -
浅谈大模型 SFT 的实践落地:十问十答
大模型微调及时被很多人认为是没有什么含金量的工作,但不同人调的模型精度也是存在差异,微调过程中也存在一些难以解决的问题,需要攻克。原创 2024-06-06 23:09:18 · 1175 阅读 · 0 评论 -
保姆级 NLP 学习路线来袭!
其实自己刚开始学的时候只到了minimum的水平,在后续的实践、面试中才逐渐把知识点补全,并归到自己的体系里。刚入门的同学们也不要气馁,先懵懵懂懂地看一看原理,哆哆嗦嗦地跑一跑代码,时间会给你答案。怀疑自我的时候,就算算自己到底学了多久,没到一万小时之前都还来得及。原创 2024-06-02 09:56:33 · 616 阅读 · 0 评论 -
百度大模型算法实习岗上岸经验分享!
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。大家好,今天分享我们星球中一位球友的上岸百度大模型算法岗经验分享。该同学来自天大,2024找暑期实习期间也算是历经坎坷,最后去了百度做大模型相关工作。原创 2024-06-02 07:43:40 · 1105 阅读 · 0 评论 -
动手做一个最小大模型 Agent:TinyAgent!
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。大家好,在ChatGPT横空出世,夺走Bert的桂冠之后,大模型愈发地火热,国内各种模型层出不穷,史称“百模大战”。原创 2024-06-02 00:24:46 · 835 阅读 · 0 评论 -
万字长文带你了解 Llama 家族:从Llama-1到Llama-3
总之,Llama模型的发布不仅证明了开源模型在全球AI领域的重要性,也为AI的未来发展方向提供了新的视角和动力。通过持续的技术进步和社区驱动的创新,Llama有望继续推动全球AI技术的广泛应用和发展。原创 2024-06-02 00:14:49 · 909 阅读 · 0 评论 -
百度算法岗三面面经,已上岸了!!!
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。个人背景:985硕士,一篇一作,感受球友的鼎力支持。。。原创 2024-06-01 13:56:26 · 1016 阅读 · 0 评论 -
使用 LlamaIndex + Eleasticsearch ,进行 RAG 检索增强生成
在使用 LLM 时我们经常会遇到这样一些情况,比如当我们的问题超出 LLM 的知识范围时,它要么解释说这个问题超出它的知识范围(这是 LLM 的知识限制),要么它会很自信地瞎编一些答案(这是我们所说的 LLM 幻觉)。原创 2024-05-30 21:47:59 · 1115 阅读 · 0 评论 -
大模型高级 RAG 检索策略:自动合并检索
自动合并检索主要是将文档按照块大小拆分成不同层级的节点,这些节点包括父节点和子节点,然后在检索过程中找到相似度高的叶子节点,如果一个父节点中有多个子节点被检索到,那么这个父节点就会被自动合并,最终将父节点的所有文档都作为上下文发送给 LLM(大语言模型),下面是自动合并检索的示意图:自动合并检索是 LlamaIndex 中的一种高级检索功能,主要有文档拆分和文档合并两个过程,下面我们将通过代码来讲解其中的原理。原创 2024-05-30 21:35:01 · 907 阅读 · 0 评论 -
图解 Transformer
作为系列文章的第一篇,本文介绍了 Transformer 的整体架构,以及训练、推理的过程。下一篇文章将深入到 Transformer 的各层,从数据流转的过程,介绍 Transformer 各层的原理及作用。原创 2024-05-27 23:59:34 · 1141 阅读 · 0 评论 -
图解 BERT 模型
用最简单的话语概括 BERT 的重要思想1.BERT 模型架构利用 Transformer 编码器堆栈结构,是一种能进行文本双向嵌入的语言模型。2.BERT的 tokenization 采用的是 WordPiece 的方式,Embedding 是 Token Embeddings、Segment Embeddings、Position Embeddings 三者的叠加。3.BERT 使用“预训练+微调”的方式用于分类、问答、NER 等 NLP 下游任务;原创 2024-05-27 23:54:27 · 1381 阅读 · 0 评论 -
上周面了美团暑期大模型算法岗,情绪有点崩溃。。。
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。项目没怎么问,重点是八股和coding。整体感受:面试造火箭,实习拧螺丝系列,问的知识特别广猜测和当前组里做的方向密切相关。八股:偏好数据如何构建以及如何评估这个偏好?为什么一定要用偏好对齐不用sft?你认为偏好对齐和sft区别在哪里?各自优缺点是什么?原创 2024-05-23 23:47:56 · 723 阅读 · 0 评论 -
利用 MongoDB Atlas 进行大模型语义搜索和RAG
向量搜索,也称为语义搜索,是一种超越传统基于关键词搜索的技术。它利用机器学习模型将文本、音频或图像等数据转换为称为嵌入的高维向量表示。这些嵌入捕捉数据的语义意义,使您能够根据向量空间中的接近度找到相似的内容,即使具体的词语不匹配。向量搜索的核心优势在于它能够理解查询背后的意图和上下文,使其在搜索引擎、推荐系统和语言模型等各种应用中非常有用。原创 2024-05-23 22:55:00 · 1154 阅读 · 0 评论 -
使用RAG和文本转语音功能,我构建了一个 QA 问答机器人
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学.针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。我们已经进入了一个大规模使用大型语言模型(LLM)的年代。无论是简单的搜索引擎还是功能广泛的聊天机器人,LLM都在满足各类业务需求方面发挥了重要作用。企业经常需要的一种工具是问答(QA)机器人。这是一种由AI驱动的工具,能够快速回答用户输入的问题。原创 2024-05-23 22:12:29 · 1386 阅读 · 0 评论