NLP
文章平均质量分 95
青云遮夜雨
这个作者很懒,什么都没留下…
展开
-
LLaMa系列模型详解(原理介绍、代码解读):LLaMA 3
2024年4月18日,Meta 重磅推出了Meta Llama 3,Llama 3是Meta最先进开源大型语言模型的下一代,包括具有80亿和700亿参数的预训练和指令微调的语言模型,能够支持广泛的应用场景。这一代Llama在一系列行业标准基准测试中展示了最先进的性能,并提供了新的功能,包括改进的推理能力。原创 2024-05-20 15:06:39 · 4417 阅读 · 0 评论 -
LLaMa系列模型详解(原理介绍、代码解读):LLaMA 2
大型语言模型(LLMs)作为高度能力的人工智能助手,在需要跨多个领域专家知识的复杂推理任务中表现出巨大潜力,包括编程和创意写作等专业领域。它们通过直观的聊天界面与人类互动,这导致了快速和广泛的公众采用。考虑到训练方法的看似简单性,LLMs 的能力令人瞩目。自回归变压器首先在大量自监督数据上进行预训练,然后通过强化学习与人类反馈(RLHF)等技术与人类偏好对齐。尽管训练方法简单,但高计算需求限制了 LLMs 的开发,仅由少数参与者进行。原创 2024-05-19 16:41:34 · 1801 阅读 · 1 评论 -
LLaMa系列模型详解(原理介绍、代码解读):LLaMa
下图很直观的展示了旋转变换的过程:旋转编码 RoPE 可以有效地保持位置信息的相对关系,原创 2024-05-17 22:08:51 · 2643 阅读 · 0 评论 -
基于GPT-2的中文闲聊模型(Mindspore适配版),将Pytorch版本的GPT2中文闲聊模型移植为MindSpore版本并使用Gradio完成类似ChatGPT的聊天功能
基于GPT-2模型并采用中文聊天语料进行训练,本项目旨在开发一个高效能的中文闲聊机器人,以提供自然而流畅的对话体验。GPT-2,作为OpenAI推出的一款自然语言处理模型,因其强大的语言理解与生成能力而广受好评。本项目通过精心挑选和处理大量的中文聊天数据,使得闲聊机器人能够更加精准地把握中文语境和文化特点,从而在各种聊天场景中提供贴近人类的对话体验。全部代码和模型均在文末给出。原创 2024-02-03 17:26:07 · 1311 阅读 · 2 评论 -
基于GPT-2的新闻文本生成——News Creator,使用MindSpore实现
基于GPT-2的新闻本文生成项目——News Creator,是一个创新的自然语言处理项目,使用GPT-2作为核心模型,并结合专为新闻内容设计的AG news数据集进行深度微调。项目通过LoRA技术进一步提升了模型在特定新闻文本生成任务上的表现,有效地结合了模型的泛化能力与任务特异性,使其更加适合于高效、高质量的新闻文章生成。原创 2023-12-27 19:00:11 · 1153 阅读 · 0 评论 -
大语言模型(LLM)综述(七):大语言模型设计应用与未来方向
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。原创 2023-11-08 20:19:50 · 1194 阅读 · 0 评论 -
大语言模型(LLM)综述(六):大型语言模型的基准和评估
为了检验LLM的有效性和优越性,已经提出了大量任务和基准,用于进行经验能力评估和分析。在本节中,我们首先介绍了LLM在语言生成和理解方面的三种基本能力评估类型,然后介绍了几种具有更复杂设置或目标的LLM的高级能力评估,最后讨论了现有的基准、评估方法和经验分析。原创 2023-11-07 20:38:51 · 3213 阅读 · 2 评论 -
大语言模型(LLM)综述(五):使用大型语言模型的主要方法
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。原创 2023-10-31 21:03:23 · 784 阅读 · 0 评论 -
大语言模型(LLM)综述(四):如何适应预训练后的大语言模型
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。原创 2023-10-27 17:41:20 · 1212 阅读 · 0 评论 -
大语言模型(LLM)综述(三):大语言模型预训练的进展
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。原创 2023-10-24 22:55:48 · 1758 阅读 · 1 评论 -
大语言模型(LLM)综述(二):开发大语言模型的公开可用资源
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。原创 2023-10-22 21:17:42 · 1441 阅读 · 0 评论 -
大语言模型(LLM)综述(一):大语言模型介绍
随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。原创 2023-10-21 23:29:35 · 1776 阅读 · 0 评论 -
GPT系列论文解读:GPT-3
在GPT-2论文中,谷歌团队致力于将GPT应用于Zero-shot领域,当然取得了不错的结果,但是这种结果离真正能在市场上应用还差得远,所以在GPT-3这篇论文中,谷歌团队又将目光转回Few-shot领域中来,论文标题“”也写明了GPT-3不再追求极致的零样本,即在一个子任务上完全不给语言模型任何样例,转而将样本数量控制在较小范围。近年来,transformer语言模型的容量大幅增加,从1亿个参数,增加到3亿个参数,增加到15亿个参数,增加到80亿个参数,110亿个参数,最后增加到170亿个参数。原创 2023-10-08 13:45:31 · 2280 阅读 · 0 评论 -
GPT系列论文解读:GPT-2
GPT(Generative Pre-trained Transformer)是一系列基于Transformer架构的预训练语言模型,由OpenAI开发。以下是GPT系列的主要模型:GPT:GPT-1是于2018年发布的第一个版本,它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。GPT-2:GPT-2于2019年发布,是GPT系列的第二个版本。它比GPT-1更大更强大,使用了24个Transformer编码器层和1.5亿到15亿个参数之间的不同配置原创 2023-10-04 20:48:56 · 1876 阅读 · 0 评论 -
GPT系列论文解读:GPT-1
由OpenAI开发。以下是GPT系列的主要模型:GPT:GPT-1是于2018年发布的第一个版本,它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。GPT-2:GPT-2于2019年发布,是GPT系列的第二个版本。它比GPT-1更大更强大,使用了24个Transformer编码器层和1.5亿到15亿个参数之间的不同配置。GPT-2在生成文本方面表现出色,但由于担心滥用风险,OpenAI最初选择限制了其训练模型的发布。原创 2023-10-02 21:33:33 · 2513 阅读 · 3 评论