动手学LLM(ch1)

前言

这一系列的笔记是根据《Build a Large Language Model (From Scratch)》这本书开始,接下来会整体记录整个学习笔记。在学习这个之前,建议先过一遍transformer的原理.......

GitHub地址:https://github.com/rasbt/LLMs-from-scratch?tab=readme-ov-file

第一章的内容,书上在这一小结巴拉巴拉说了很多,如果有些基础的里面很多都是废话,所以我这里总结一下即可...........

1.1 理解大型语言模型

LLM开创了自然语言处理(NLP)的新时代。传统方法在垃圾邮件分类和简单模式识别等分类任务中表现出色,这是由于这些任务可以用手工规则或更简单的模型来捕捉。然而,在需要复杂理解和生成能力的语言任务中,如解析详细说明、进行上下文分析或创建连贯且与上下文相适应的原始文本时,这些方法通常表现不佳。LLM在复杂语言任务中展现了卓越的理解和生成能力,能够处理细致的上下文分析和连贯的文本生成。它们基于深度学习和海量文本数据进行训练,通过transformer架构捕捉语言的微妙之处,显著提升了文本翻译、情感分析和问题解答等任务的性能。与以往为特定任务设计的模型不同,LLM具备更广泛的应用能力。

1.2 什么是LLM

大型语言模型(LLM)是基于深度神经网络的神经网络,旨在理解和生成类人文本。它们通过在海量文本数据上训练,掌握语言的上下文和结构,具有预测下一个单词的能力。LLM采用transformer架构,能够选择性关注输入的不同部分,从而处理语言的细微差别和复杂性。由于具备生成文本的能力,LLM也被视为生成式人工智能(GenAI)的一种形式。与传统机器学习不同,深度学习不需要人工提取特征,能够自动识别数据中的复杂模式,广泛应用于各种自然语言处理任务。

1.3 LLMs的应用

大型语言模型(LLM)因其解析和理解非结构化文本的能力,已广泛应用于多个领域,包括机器翻译、文本生成、情感分析和文本摘要。LLM还被用于内容创作,如撰写小说和计算机代码,并为复杂聊天机器人和虚拟助手提供动力,如OpenAI的ChatGPT和谷歌的Gemini。此外,LLM能够从医学和法律等专业领域的大量文本中进行知识检索,处理文档筛选和技术问题回答。随着对LLM应用的持续探索,它们有潜力重新定义我们与技术的互动方式。在本书中,将探讨LLM的工作原理,以及如何构建类似ChatGPT的文本生成助手。

可用于从医学或法律等专业领域的大量文本中进行有效的知识检索*:本句说明LLM不仅适用于通用语言处理,还能够处理专业领域的文本数据。知识检索是指在大量文本中查找和提取所需信息的过程,而这种其实为了更专业回答相关问题,会涉及RAG相关技术的使用。而这正是大模型的两个比较火热的应用研究方向之一,另外一个是Agent*相关技术。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值