自然语言处理基础内容之一

最新推荐文章于 2024-07-23 14:02:50 发布

sheep ᐡ•͈ ·̭ •͈ᐡ

最新推荐文章于 2024-07-23 14:02:50 发布

阅读量71

点赞数 3

文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/m0_75182143/article/details/140616674

版权

图灵测试（模仿的像一个人）图灵游戏

自然语言处理

Watson

QA system

Advances in natural language processing

自然语言处理基础（词表示与语言模型）

问本（词语）

利用这个词的上下文来表示这个词，准确的来说利用这个词附近关键词的数量来判断相似度，但缺点也非常明显，随着词汇量的增大，表的内容也开始变得越来越大，另一点是出现少的一些词语的表示会变得没有想象的这么好，然而，大模型和深度学习利用分布式来解决这个问题，低维度的向量来表示，例如首都和国家的关系

语言模型

根据前文来预测下一个词（计算机）

计算词语成为序列的概率

设想：后面的词只会受到前面的词的影响

去统计前几个词出现下一个词语的概率，根据概率来预测 N-gram模型计算间隔几个词时，几个词和一个词的概率是多少

缺点：量太大了n大的话计算量爆炸式增长，对近义词的检测不强例如，she is beautiful和he is handsome在这个模型是毫无关系的，而对于人来说，这两句话是非常相近的

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sheep ᐡ•͈ ·̭ •͈ᐡ

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理基础内容之一

简述容易理解
复制链接

扫一扫

自然语言处理基础.zip

08-29

自然语言处理（Natural Language Processing, NLP）是计算机科学领域的一个重要分支，它涉及人工智能、语言学、统计学和机器学习等多个学科，旨在使计算机能够理解、解释、生成和操作人类使用的自然语言。...

第二章 自然语言处理编程基础

06-23

《自然语言处理编程基础——Python语言详解》 Python，一种被广泛应用于自然语言处理的编程语言，因其简单易学、可读性强、可维护性好等特点而受到青睐。Python的开发者社区，Python Software Foundation（PSF），...

参与评论您还未登录，请先登录后发表或查看评论

Python自然语言处理-BERT实战

10-26

通俗讲解BERT模型中所涉及的核心知识点（Transformer,self-attention等），基于google开源BERT项目从零开始讲解如何搭建自然语言处理通用框架，通过debug源码详细解读其中每一核心代码模块的功能与作用。最后基于...

统计自然语言处理基础英文+中文

02-25

《统计自然语言处理基础》是一本深入探讨自然语言处理（NLP）的教材，由宗成庆撰写，提供了英文和中文两种版本，便于不同语言背景的学习者理解和掌握。该书的特色是结合了统计方法与自然语言处理技术，旨在帮助读者...

python自然语言处理实战pdf_dode.zip

01-05

《Python自然语言处理实战》是一本深入探讨Python在NLP（自然语言处理）领域的实践应用的书籍。PDF版本为读者提供了方便的电子阅读体验，同时附带的代码资源则可以帮助读者更好地理解和应用书中的理论知识。这个...

微调大型语言模型 (LLM) 和 RAG 的区别、优势和劣势

最新发布

juhanishen的博客

07-23

443

微调大型语言模型 (LLM) 和 RAG 的区别、优势和劣势

昇思25天学习打卡营第11天|基于 MindSpore 实现 BERT 对话情绪识别

一名全栈开发工程师

07-20

324

BERT的创新之处在于其预训练方法，特别是Masked Language Model和Next Sentence Prediction，这使得它在问答、文本分类等任务上表现出色。在训练中，15%的单词会被随机掩码，以增强模型对上下文的理解。BERT模型经过预训练后，可以用于微调，以适应各种下游任务，如情绪识别，这在智能对话中尤为重要，有助于提升用户体验和服务质量。BERT模型的双向编码特性和创新的预训练方法，不仅提高了语言模型的理解和生成能力，还为情绪识别等应用提供了强大的基础。

基于术语词典干预的机器翻译挑战赛笔记 Task3 #Datawhale AI 夏令营

qq_23311271的博客

07-20

987

基于术语词典干预的机器翻译挑战赛笔记 Task3

使用 KerasNLP 从头开始生成 GPT 文本

LIjin_1006的博客

07-21

952

reserved_tokens=["[PAD]", "[UNK]", "[BOS]"], # 保留token:填充，未知，起始。"[BOS]"：代表句子的开始，但在这里，从技术上讲，它是一个标记，代表训练数据中每一行的开始。# 通过这些设计，我们可以有效地控制模型的大小和泛化能力，同时确保模型能够处理训练数据中可能遇到的各种情况，包括那。# 制词汇表的大小，因为稍后会看到，这对模型参数的数量有很大影响。# 只传一个目标序列输入，而不传编码器输出的输入，是因为任务的特殊性，文本生成，只需要。

【NLP】关于参数do_sample的解释

weixin_43941438的博客

07-21

344

do_sample被设置为True，意味着文本生成将采用随机采样方式，而temperature参数则会影响采样时概率分布的形状，从而影响生成文本的多样性。较低的temperature值会使分布更加尖锐，减少随机性，更倾向于选择高概率的词。在自然语言处理（NLP）领域，特别是在使用神经网络模型进行文本生成时，do_sample是一个常见的参数，用于控制模型生成文本的方式。具体来说，do_sample参数决定模型是否采用随机采样（sampling）的方式来生成下一个词，还是仅仅选择最有可能的词。

昇思25天学习打卡营第21天 | 基于 MindSpore 实现 BERT 对话情绪识别

嫦娥妹妹等等我的博客

07-21

452

这次学习经历让我对 BERT 模型有了更深入的理解，特别是它在对话情绪识别任务中的应用。MindSpore 作为一个支持多种设备的深度学习框架，提供了许多便利的工具和 API，使得从模型构建到训练再到部署的全过程变得简单高效。尽管当前的模型已经能够达到不错的效果，未来的工作可以探索更多的改进方法，例如通过更细粒度的情绪分类来提高模型的应用价值，或者尝试其他更先进的模型结构如 Transformer-XL 来进一步提升性能。

大型语言模型的生物医学知识图优化提示生成

发呆的比目鱼的博客

07-21

980

KG-RAG框架，较好的结合了生物医学知识图谱SPOKE和LLM的优势。SPOKE是一个开放知识图谱，提供数据下载和开放API，整合了超过40个公开可用的生物医学知识源，涵盖了基因、蛋白质、药物、化合物、疾病等概念和概念之间的关系，可以为LLM提供一个强大的医疗领域知识。研究人员对KG-RAG框架进行了广泛的测试，包括单跳和双跳提示、药物再利用查询、生物医学真假问题和多项选择题。结果表明，KG-RAG显著提高了LLMs的性能，特别是在具有挑战性的多项选择题数据集上，LLMs都取得了较大的提升。

大语言模型-文本检索任务基准 BEIR

weixin_42045968的博客

07-20

863

BEIR (A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models) 文本检索任务的基准，使用`18 个数据集`为检索系统的零样本评估提出了一个标准化基准， BEIR 基准上在`9个不同领域的检索任务`评估 `10 种不同的检索方法`。

python-NLP：1中文分词

总裁余（余登武）博客

07-20

811

python-NLP：1中文分词

大语言模型-Bert-Bidirectional Encoder Representation from Transformers

weixin_42045968的博客

07-23

943

Bert是2018年10月由Google AI研究院提出的一种预训练模型。主要用于自然语言处理（NLP）任务，特别是机器阅读理、文本分类、序列标注等任务。 BERT的网络架构使用的是多层Transformer结构，有效的解决了长期依赖问题。

人工智能算法工程师(高级)课程1-单类目标识别之人脸检测识别技术MTCNN模型介绍与代码详解

weixin_42878111的博客

07-18

563

大家好，我是微学AI，今天给大家介绍一下人工智能算法工程师高级课程1-单类目标识别之人脸检测识别技术与代码详解。本文深入探讨了基于PyTorch的人脸检测与识别技术，详细介绍了MTCNN模型、Siamese network以及center loss、softmax loss、L-softmax loss、A-softmax loss等多种损失函数的原理与实现。通过配套的完整可运行代码，展示了如何在PyTorch中搭建单类多目标项目的人脸检测识别流程，并指导读者训练出自己的人脸识别模型。

NLP学习 | 01 NLP认识

m0_74113296的博客

07-21

1069

自然语言处理NLP自然语言理解NLU —— 人工智能方式自然语言生成NLG —— 人工智能方式Bert，GPT,T5：预训练的自然语言模型；

2.3 大模型硬件基础：AI芯片（上篇） —— 《带你自学大语言模型》系列

陌北有棵树的博客

07-20

729

算力是AI发展的驱动力，大模型时代更要格外关注算力。目前的大模型是个重资产行业，底层竞争在于半导体产业，AI的发展离不开芯片，甚至可以说，整个信息时代的发展都离不开芯片。

【压缩泛化】对大语言模型智能涌现的理解

weixin_65514978的博客

07-21

1281

大模型、LLM、AGI、通用人工智能、压缩泛化、压缩智能、高质量数据、无损压缩、压缩器、最小描述长度、