强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
再次回顾下Bert的Encoder
最后,我们得到的看起来和我们开始的一样:每个输入Token有一个768值的Embedding。然而,正如我们所看到的,编码器层产生的Embedding不仅仅是单个词的表示,而是特定上下文中的词的表示。这些上下文化Embedding可以传递给另一个编码器层进行进一步的提炼,或者用于各种不同的自然语言处理任务,如命名实体识别、问答或情感分析。下次,我们将看看BERT如何被用来解决这些不同的NLP问题。原创 2025-01-01 16:10:54 · 437 阅读 · 0 评论 -
bert中的Position Embedding 具体是怎么实现的,是绝对位置吗? 相比较于decoder only的生成模型,为什么需要rope旋转位置编码?
BERT 不使用 RoPE 是因为它的任务目标(如分类、问答)对相对位置的要求较低,而生成模型需要更复杂的相对位置编码机制来保证生成结果的上下文一致性,因此 RoPE 更适合生成任务场景。RoPE 的核心是将位置嵌入编码为旋转操作。在 BERT 中,**Position Embedding(位置嵌入)**主要用于。不需要为每个位置维护一个固定的嵌入矩阵。,即每个位置都有一个固定的向量表示。相较于 BERT 的绝对位置嵌入,位置 iii 的嵌入是由其绝对位置。往往是不固定的(因为生成的文本。原创 2025-01-01 16:53:30 · 627 阅读 · 0 评论 -
bert为什么是encoder only模型? 是几层的encoder叠加起来的? 如果按照当前encoder的输入是上一层encoder的输出这样来看,和rnn、gru类似的上一个时间步长的单元输出
BERT 是一个 Encoder-only 模型,由多层 Encoder 堆叠组成,专注于对输入序列进行深度的上下文表示。相比于 RNN/GRU,BERT 通过自注意力机制实现了全局的双向建模,并且具有更高的并行化能力和更强的表达能力。这也是为什么 BERT 在各种 NLP 任务中表现突出的关键原因。原创 2025-01-01 16:44:21 · 649 阅读 · 0 评论 -
bert的句子建模 ’[CLS] 我 喜欢 学习 [SEP] ‘ 这些特殊的token[CLS] [SEP]是什么意思? 作用是什么?
Poe在 BERT 的句子建模中,[CLS]和[SEP]是特殊的标记(token),它们有特定的意义和作用。[CLS][CLS]输入序列的开头第一个位置始终是[CLS],无论输入的句子有多长的多层编码后,[CLS]的输出向量(隐藏状态)作整个句子的全局表示。[CLS]会汇聚整个序列的信息表示整个输入序列(句子或句对下游任务中(如分类任务[CLS]输出向量被直接用于分类器作为输入,[CLS]句子的情感特征[CLS]个句子的整体关系特征。[SEP][SEP]分隔标记(Separator Token。原创 2025-01-01 16:48:28 · 972 阅读 · 0 评论 -
分层注意力变换器(Hierarchical Attention Transformers, HATs)在高效处理长文档分类问题中的应用
这篇论文探讨了分层注意力变换器(Hierarchical Attention Transformers, HATs)在高效处理长文档分类问题中的应用。作者提出了预训练的HAT模型,这些模型首先在段落级别进行编码,然后是跨段落编码,并将其与Longformer模型和部分预训练的HATs进行了比较。原创 2024-04-09 18:48:22 · 335 阅读 · 0 评论 -
大模型开发 - 一文搞懂Encoder-Decoder工作原理
通过计算Decoder的隐藏状态与Encoder输出的每个词的隐藏状态的相似度(Score),进而得到每个词的Attention Weight,再将这些Weight与Encoder的隐藏状态加权求和,生成一个Context Vector。:第一个子层是一个带掩码的多头自注意力子层,第二个子层是一个多头注意力子层(编码器到解码器),第三个子层是一个前馈全连接子层。编码器(Encoder):使用一个循环神经网络(RNN)作为编码器(Encoder),读取输入句子,并将其压缩成一个固定维度的编码。原创 2024-04-06 20:34:29 · 1799 阅读 · 0 评论 -
超详细图解Self-Attention
一年之前,初次接触。当时只觉得模型复杂,步骤繁复,苦读论文多日也没有完全理解其中道理,只是泛泛地记住了一些名词,于其内部机理完全不通,相关公式更是过目便忘。是最核心的思想,最近几日重读论文,有了一些新的感想。由此写下本文与读者共勉。笔者刚开始接触时,最大的不理解的地方就是QKV三个矩阵以及我们常提起的Query查询向量等等,现在究其原因,应当是被高维繁复的矩阵运算难住了,没有真正理解矩阵运算的核心意义。因此,在本文开始之前,笔者首先总结一些基础知识,文中会重新提及这些知识蕴含的思想是怎样体现在模型中的。原创 2023-08-21 17:26:38 · 304 阅读 · 0 评论 -
NLP领域有哪些国际顶级会议?
以产品视角,关注智能问答、对话系统、聊天机器人等领域。已关注84 人赞同了该文章如今在人工智能时代,一项新技术的出现往往能够颠覆某个产品甚至是某个行业,从而诞生新的独角兽公司甚至是行业巨头企业,比如国内近几年计算机视觉领域火热的CV四小龙(商汤、旷视、依图、云从)。而NLP领域,由于技术、商业应用场景等诸多因素的限制,目前还没有出现独角兽级别的公司。但这并不意味着NLP没有发展前景,正如比尔盖茨所言“NLP是人工智能皇冠上的明珠”,是一项非常值得人们all in的事业。原创 2023-07-29 20:16:10 · 1602 阅读 · 0 评论 -
HowNet知网 义原 简介 Sememe,即最基本的、不宜再分割的最小语义单位
OpenHowNet源自在中文世界有巨大影响力的语言知识库——知网(HowNet)。知网的构建秉承还原论思想,即所有词语的含义可以由更小的语义单位构成,而这种语义单位被称为“义原”(Sememe),即最基本的、不宜再分割的最小语义单位。知网构建了包含2000多个义原的精细的语义描述体系,并为十几万个汉语和英语词所代表的概念标注了义原。知网最早由董振东和董强先生在20世纪90年代设计和构建,至今已有近30年历史,期间不断迭代更新。OpenHowNet首次将知网的核心数据开源。原创 2023-07-08 08:57:16 · 906 阅读 · 0 评论 -
NLP:词义分布的空间维度——从文本符号到词向量表征
具体方 法为利用词和上下文的关系,通过算法将原本离散式的词向量嵌入到一个低纬度的连续向量 空间中,最终把词表达成一个固定长度④的短向量。每 个单词可以分别表示成一个维度为八的向量,根据单词在词表中所处的位置来计算,具体如 下:{“never”: [1 0 0 0 0 0 0 0]}、{“trouble”: [0 1 0 0 0 0 0 0]}、…其次是“维度灾难”,随着词表规模的增加(视语料大小,一般会达到十万以 上),词向量的维度也会随之变大,向量中的 0 也会越来越多,这种维度的激增会使得数据。原创 2023-06-16 14:11:46 · 897 阅读 · 0 评论 -
Multi-headed Self-attention(多头自注意力)机制介绍
在Transformer及BERT模型中用到的Multi-headed Self-attention结构与之略有差异,具体体现在:如果将前文中得到的。以上便是对Transformer及BERT模型中用到的多头自注意力机制的简要介绍,接下来的文章将介绍Transformer及BERT模型。,在Multi-headed Self-attention中,我们会将这里得到的。对于序列中的其他输入也是同样的处理过程,且它们共享这些网络的参数。整体看做一个“头”,则“多头”即指对于特定的。),然后通过线性转换(即不。原创 2023-06-15 09:45:08 · 2655 阅读 · 0 评论 -
Towards Fully 8-bit Integer Inference for the Transformer Model
讲述Transformer的量化,一开头提到Softmax和LayerNorm层如果使用低精度会造成精度损失,所以这些层目前都还是用的高精度(浮点)。因此量化主要着重在MatMul的量化上,如下是在Tensorflow中如何量化MatMul及其数据流动图,使用最大最小值的方案进行量化,发现精度下降大于0.5。Abstract8-bit integer inference, as a promising direction in reducing both the latency and stor原创 2021-08-19 14:13:58 · 335 阅读 · 0 评论 -
word segmentation分词并计数,统计词频,输出为excel
import sys #reload(sys) #sys.setdefaultencoding('utf-8') import jieba import jieba.analyse import xlwt #写入Excel表的库 if __name__=="__main__": wbk = xlwt.Workbook(encoding = 'ascii') sheet = wbk.add_sheet("wordCount")#E...原创 2021-12-27 15:58:36 · 23 阅读 · 0 评论 -
MHA多头注意力机制
注意力机制的主要目的是从众多信息中选择出对 当前任务目标更关键的信息.传统的单头注意力机制 难以提取到更丰富的情景语义信息,进而对评论文本 的情感分类的效果也产生了影响,为了从多个子空间 上学习更加丰富的情感信息,本文采用了多头注意力 代替传统的单头注意力,如图 2.首先将 LSTM 层产生的隐层向量表示拆分为多个 头,线性变换后然后送入加性注意力层,重复计算 head_num 次,其中 head_num 为多头的个数,最后拼接 所有的 attention 值作为下一模块的输入....原创 2021-10-19 11:59:04 · 87 阅读 · 0 评论 -
torch.nn.MarginRankingLoss文本排序
创建一个标准,用于测量给定输入 x1、x2、两个 1D 小批量或 0D 张量以及标签 1D 小批量或 0D 张量 y(包含 1 或 -1)的损失。如果 y = 1,那么它假定第一个输入的排名应该比第二个输入更高(具有更大的值),反之 y = -1=。小批量中每对样本的损失函数为:对于包含N NN个样本的batch数据 D ( x 1 , x 2 , y ) D(x1,x2,y)D(x1,x2,y), x 1 x1x1, x 2 x2x2是给定的待排序的两个输入,y yy代表真实的标签,属于{ 1 ,原创 2022-06-14 15:33:07 · 830 阅读 · 0 评论 -
tsv文件删除带中文的行,awk命令
awk -F "[\t$]" '{if (substr($2, i, 1) > "\177"){}else{print $0}}' train.tsv >result.tsvawk -F "[\t$]" '{if (substr($2, i, 1) > "\177"){}else{print $0}}' train.tsv >result.tsv原创 2021-11-25 14:42:05 · 493 阅读 · 0 评论 -
BERT 详解
抛弃了传统的RNN和CNN,通过Attention机制将任意位置的两个单词的距离转换成1,有效的解决了NLP中棘手的长期依赖问题。Transformer的结构在NLP领域中已经得到了广泛应用,并且作者已经发布在TensorFlow的tensor2tensor库中。海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁原创 2021-11-20 21:43:31 · 6819 阅读 · 0 评论 -
多头注意力比单头好在哪?
多头的本质是多个独立的attention计算,作为一个集成的作用,防止过拟合;从attention is all your need论文中输入序列是完全一样的;相同的Q,K,V,通过线性转换,每个注意力机制函数只负责最终输出序列中一个子空间,即1/8,而且互相独立;...原创 2021-11-20 20:15:32 · 27038 阅读 · 3 评论 -
预训练语言模型,bert,RoFormer-Sim又称SimBERTv2
RoFormer-Sim,又称SimBERTv2,是我们之前发布的SimBERT模型的升级版。原创 2022-06-22 15:57:09 · 873 阅读 · 0 评论 -
Ernie-gram, 显式、完备的 n-gram 掩码语言模型,实现了显式的 n-gram 语义单元知识建模。
从 ERNIE 1.0 起,百度研究者们就在预训练中引入知识增强学习,通过掩码连续的词、phrase、named entity 等语义知识单元,实现更好的预训练学习。本次开源的通用语义理解模型 ERNIE-Gram 更进一步,提出的显式、完备的 n-gram 掩码语言模型,实现了显式的 n-gram 语义单元知识建模。ERNIE 多粒度预训练语义理解技术作为自然语言处理的基本语义单元,更充分的语言粒度学习能帮助模型实现更强的语义理解能力:ERNIE-Gram 多粒度预训练语义理解技术,在预训练 (pre-t原创 2022-06-30 17:09:17 · 832 阅读 · 0 评论 -
RocketQA:通过跨批次负采样(cross-batch negatives)、去噪的强负例采样(denoised hard negative sampling)与数据增强(data augment
传统的开放域问答主要采用级联的检索式问答系统,包含了段落检索、段落排序、答案定位等多个步骤。随着近些年预训练语言模型的发展,研究人员开始探索基于深度语义表示的对偶式检索模型(dual-encoder),希望其能够替代传统的检索式问答系统中级联的检索和排序等模块,与基于机器阅读理解模型的答案定位一起实现“端到端问答”。不同于传统的级联式问答系统,“端到端问答”摒弃了传统系统中繁杂的构件,系统复杂性大大降低,并且其中每个模块(段落检索和答案定位)都是可学习的,这样的设计能够让整个系统实现端到端训练。这意味着问答原创 2022-06-30 10:32:32 · 921 阅读 · 0 评论 -
双塔模型:ERNIE-Gram预训练精排Matching
基于ERNIE-Gram训练Pair-wise模型。Pair-wise 匹配模型适合将文本对相似度作为特征之一输入到上层排序模块进行排序的应用场景。双塔模型,使用ERNIE-Gram预训练模型,使用margin_ranking_loss训练模型。(1)采用 AUC 指标来评估排序模型的排序效果。效果评估环境依赖以下是本项目主要代码结构及说明:样例数据如下:...原创 2022-06-09 14:53:40 · 830 阅读 · 1 评论 -
双塔模型-语义索引策略 [In-batch Negatives]
语义索引(可通俗理解为向量索引)技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。语义索引模型的目标是:给定输入文本,模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。语义索引模型的效果直接决定了语义相关的物料能否被成功召回进入系统参与上层排序,从基础层面影响整个系统的效果。在召回阶段,最常见的方式是通过双塔模型,学习Document(简写为Doc)的向量表示,对Doc端建立索引,用ANN召回。我们在这种方式的基础上,引入语义索引策略 [In-batch Negatives](https原创 2022-06-09 14:42:36 · 2286 阅读 · 0 评论 -
层次化文本分类Hierarchical Multi-Label Classification Networks
常见的文本分类任务中类目之间通常是正交的,即不存在包含关系。而层次分类则是一类特殊的文本分类任务,即类目之间存在层次结构关系,一般可以表示为树形或者无向图。在这类任务中,一条样本的标签会同时包括层次结构中的父类和子类目。更复杂的情况下,一条样本会同时包含层次结构中多条路径,这类任务则称为层次多标签任务(HMC,Hierarchical Multi-Classification), 也是本文主要讲述的内容。层次多标签分类的常用的方法主要分为两类,Local(局部方法)和global(全部方法),区别在于从原创 2022-05-30 16:54:12 · 3027 阅读 · 0 评论 -
PaddleNLP召回模块:SimCSE
2.2.2 召回模块召回模块需要从千万量级数据中快速召回候选数据。首先需要抽取语料库中文本的 Embedding,然后借助向量搜索引擎实现高效 ANN,从而实现候选集召回。我们针对不同的数据情况推出三种语义索引方案,如下图所示,您可以参照此方案,快速建立语义索引:⭐️无监督数据 ⭐️有监督数据 召回方案 多 无 SimCSE 无 多 In-batch Negatives 有 有 SimCSE+ In-batch Negatives..原创 2022-05-30 14:46:54 · 1081 阅读 · 0 评论 -
SimCSE: Simple Contrastive Learning of Sentence Emb
SimCSE主要解决的是Sentence Embedding的问题,也就是句向量。传统方式中,大部分句向量是通过词向量求和而成(词向量通常是由word2vec等方法训练而成)。显然这样的方法比较简单粗暴,而且直接加和的方式并没有利用到词与词之间的交互信息。取而代之的则是以Bert为基础的各类模型。在Bert中,通过堆叠Transformer encoder,能够捕捉到一个句子中深度双向的词与词之间的信息,并以输出层中的[CLS] token的向量来表示整个句子的向量。(关于Bert的细节问题请移步相关文章)原创 2022-05-30 14:20:10 · 423 阅读 · 0 评论 -
PaddleNLP Taskflow
PaddleNLP TaskflowPaddleNLP Taskflow 介绍 任务清单 用法 查看使用示例 中文分词 词性标注 命名实体识别 文本纠错 句法分析 情感分析 文本相似度 『解语』- 词类知识标注 『解语』- 名词短语标注 生成式问答 智能写诗 开放域对话 FAQ ...原创 2022-01-07 18:25:25 · 1351 阅读 · 0 评论 -
NLP之:百度SKEP
SKEPSKEP是百度研究团队提出的基于情感知识增强的情感预训练算法,此算法采用无监督方法自动挖掘情感知识,然后利用情感知识构建预训练目标,从而让机器学会理解情感语义。SKEP为各类情感分析任务提供统一且强大的情感语义表示。百度研究团队在三个典型情感分析任务,句子级情感分类(Sentence-level Sentiment Classification),评价对象级情感分类(Aspect-level Sentiment Classification)、观点抽取(Opinion Role Labeli原创 2022-01-07 16:59:35 · 1396 阅读 · 0 评论 -
BERT CLS
[CLS]就是classification的意思,可以理解为用于下游的分类任务。主要用于以下两种任务:单文本分类任务:对于文本分类任务,BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文本分类,如下图所示。可以理解为:与文本中已有的其它字/词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。语句对分类任务:该任务的实际应用场景包括:问答(判断一个问题与一个答案是否匹配)、语句匹配(两句话是否表达同一个意思)等。对于该..原创 2021-12-17 09:40:26 · 1346 阅读 · 0 评论 -
MHA-多头注意力机制
这种块由一个多头部注意层和一个每个位置的2层前馈网络组成,并与残差连接和层归一化连接在一起。多头注意机制的普遍应用可以说是transformer的核心创新。在这篇博客文章中,我们将仔细研究这种多头注意力机制,常规注意力。在自然语言处理(NLP)的上下文中,注意力通常是指计算基于内容的向量序列的凸组合。这意味着权重本身是输入的函数,通常的实现是:,输入序列为x,查询向量q。使用注意力而不是递归神经网络等句子池化的操作符有很多优势,其中最重要的是在高度并行环境(如GPU)中具有很高的计算效率。然而.原创 2021-10-19 09:28:29 · 30 阅读 · 0 评论 -
XLNET详解
xlnet作为bert的升级模型,主要在以下三个方面进行了优化采用AR模型替代AE模型,解决mask带来的负面影响 双流注意力机制 引入transformer-xl 排列语言模型PLM在下文中,我将会为大家详细介绍这三个优化点集成Transformer-XL除了上文提到的优化点,作者还将transformer-xl的两个最重要的技术点应用了进来,即相对位置编码与片段循环机制。我们先看下片段循环机制。片段循环机制transformer-xl的提出主要是为了解决超长序列的依赖原创 2021-08-26 17:24:02 · 911 阅读 · 0 评论 -
XLNet 和BERT的区别是什么?
XLNet 和BERT的区别是什么?与AR语言模型不同,BERT被归类为自动编码器(AE)语言模型。AE语言模型的目的是从损坏的输入中重建原始数据。损坏的输入意味着我们使用在训练前阶段将原始token替换为[MASK]。我们的目标是预测into来得到原来的句子。AE语言模型的优点是它可以在向前和向后两个方向上看到上下文。但是AE语言模型也有其不足之处。它在预训练中使用了[MASK],但是这种人为的符号在finetune的时候在实际数据中时没有的,导致了预训练 — finetune..原创 2021-08-26 17:11:20 · 455 阅读 · 0 评论 -
2021-08-26BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
图 1:BERT 的整体预训练和微调程序。 除了输出层,相同的架构用于预训练和微调。 相同的预训练模型参数用于为不同的下游任务初始化模型。 在微调期间,所有参数都被微调。 [CLS] 是在每个输入示例前添加的特殊符号,[SEP] 是特殊的分隔符标记(例如分隔 问题/答案)Figure 1: Overall pre-training and fine-tuning procedures for BERT. Apart from output layers, the same archit...原创 2021-08-26 16:48:45 · 328 阅读 · 0 评论 -
2021-08-25Prompt
简介常规NLP做文本分类时常用Transfer Learning的方式,在预训练bert上加一个分类层,哪个输出节点概率最大则划分到哪一类别。而基于Prompt的MLM文本分类是将文本分类任务转化为MLM( Masked Language Modeling)任务,通过[MASK]位置的输出来判断类别。例如通过文本描述判定天气好坏,类别【好、坏】:常规方式:今天阳光明媚! 【好】基于Prompt的MLM: 天气[MASK],今天阳光明媚!【天气好,今天阳光明媚!】Prompt的设定可以有多种方式原创 2021-08-25 15:14:39 · 677 阅读 · 0 评论 -
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
AbstractTransformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling. We propose a novel neural architecture Transformer-XL that enables learning dependency beyond a fixed原创 2021-08-24 18:08:22 · 175 阅读 · 0 评论 -
Transformer-XL 2
MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列,例如base bert其支持的序列最大长度是512,超过了该长度的序列需要进行截取,再把截取后的片段分别用bert进行编码,该方法虽然可行,但是存在上下文碎片化的问题,也就是说每个片段是单独建模的,互相之间没有上下文信息,并且,不同的片段位置编码都是从0开始,明显是有问题的。可见Transformer对于较长的序列建模能力有限,如何解决该弊端就该Transformer-XL大显身手了。Transformer-X原创 2021-08-24 16:57:04 · 126 阅读 · 0 评论 -
Transformer-XL、Vanilla Transformer
论文想要解决的问题:如何赋予编码器捕获长距离依赖的能力。目前在自然语言处理领域,Transformer的编码能力超越了RNN,但是对长距离依赖的建模能力仍然不足。在基于LSTM的模型中,为了建模长距离依赖,提出了门控机制和梯度裁剪,目前可以编码的最长距离在200左右。在基于Transformer的模型中,允许词之间直接建立联系【self-attention】,能够更好地捕获长期依赖关系,但是还是有限制。2. Vanilla TransformerVanilla Transformer是Transf原创 2021-08-24 16:32:53 · 1389 阅读 · 0 评论 -
2021-08-24XLNET 语言模型
2 . 2 . 3 XLNET 语言模型在 XLNET 语 言 模型 出 现之 前 , 预训 练模 型可 以 大致分为 以 下两种类型 :自 回 归 语 言 模 型 ( Aut oregre s s i ve Language Mode l , ARLM) 和自 编 码 模 型 ( Aut oenc odi ng Language Mo del , AELM) [ 5 2 ] 。自 回 归 语言模型 是单 向 语言模型 , 其基本思想 为根据 上 文 内 容来预测 下 一 个可能跟随 的 单原创 2021-08-24 14:37:59 · 306 阅读 · 0 评论 -
ELMo ,LM:一串词序列的概率分布probability distribution over sequences of words
语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布。Language model is a probability distribution over sequences of words.GPT与ELMo当成特征的做法不同,OpenAI GPT不需要再重新对任务构建新的模型结构,而是直接在transformer这个语言模型上的最后一层接上softmax作为任务输出层,然后再对这整个模型进行微调。他们额外发现,如果使用语言模型作为辅助任务,能够提升有监督模型的原创 2021-08-24 13:53:59 · 254 阅读 · 0 评论 -
2021-08-24自然语言处理预训练模型的研究综述 - 知网论文
语言模型可以看作是一串词序列的概率分布,因此 在早期,研究人员提出了 N-gram 模型[3] ,它是基于统计 语言模型的算法,但是这种做法只能通过概率统计进行 判断,会使数据出现严重的稀疏性,无法考虑词内部的 关联。 随着深度学习技术的迅速发展,词嵌入正式登上历 史的舞台,Bengio 等人在 2003 年提出 NNLM 模型[4] ,随 后出现了一系列词向量技术(如 Word2Vec[5] 、Glove[6] 、 FastTest[7] 等)为文本提供了一种数值化的表示方法,但 是无法解决一词多义的问题原创 2021-08-24 13:40:58 · 547 阅读 · 0 评论