自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【NLP】Pre-train,Prompt,and Predict

“预训练微调”结构正在被“预训练、提示和预测”结构取代,即通过一些提示信息如填空、翻译等,通过无监督的方式训练单一的LM直接用于解决大量的问题。通过提示来控制模型的行文,问题也就转移到了提示工程,即找到最合适的提示。

2021-12-10 00:02:44 1061

原创 NLP学习笔记<5>Seq2Seq

目录5.1 编码器-解码器(Encoder-Decoder)结构5.2 模型结构5.3 pytorch编写1.构建batch2.Seq2Seq3.训练模型4.测试模型5.预测结果的评估5.4 小结5.5 参考文档 序列到序列(Sequence to Sequence)模型是一种重要的语言生成框架,在机器翻译、自动摘要、对话系统等领域被广泛应用。在训练和测试过程中,序列到序列模型先通过编码器对输入文本进行编码,再通过解码器解码...

2021-10-10 23:56:41 416

原创 NLP学习笔记<4> 循环神经网络RNN之(2)LSTM

4.1 长短期记忆网络与门控循环长短期神经网络(Long Short-term Memory, LSTM)神经网络能够进一步改善之前RNN的记忆能力并且减轻梯度爆炸和梯度消失的问题,它对RNN的主要修改在于将循环函数从简单的全连接改进为使用三个控制门的记忆单元,函数可以表示为:其中为sigmoid函数,其输出值在0...

2021-10-09 22:56:39 776

原创 NLP学习笔记<3>循环神经网络RNN(1)

3.1 RNN的基本原理 RNN(Recurrent Nrural Networks)是带层间反馈的神经网络模型,它维护了一个隐状态序列,每个隐状态都依赖于先前的隐状态和当前位置的输入,且输入序列的长度是不定长的。正适合这种特性,使其具有更强的捕获序列数据特征的生成词序列的能力,称为语言建模和语言生成的主流模型之一。 RNN的算法框架包括输入层、隐藏层和输出层。对于一个词向量序列,其中为单词wi的维度为k的向量表示,每一层的状态设置为,定义如下:...

2021-10-08 17:34:09 368

原创 Word2Vec之CBOW&Skip-gram

我们之前介绍过分布假设,主要是通过上下文来构造一个共现矩阵,度量词的相似性或关联性可以在共现矩阵的基础上采用余弦相似度、Jaccard相似度、点互信息等,为了避免低频技术在统计上的不可靠性,可以对共现矩阵胡必须把矩阵奇异分解,获得矩阵更鲁棒的低阶表示后,在分解后的低阶矩阵上进行了词的表示与计算。 分布式表示则是将每个词映射到低维空间中的连续向量,每个维度有着不明确的含义,而词的含义由其向量表示及与其他词的空间关系决定。Word2Vec 词向量已成为基于...

2021-10-04 22:34:52 541

原创 NNLM前馈神经网络模型学习笔记

传统的统计语言模型是一种非参数化的模型,即直接通过计数估计条件概率,但这种非参数化的模型最主要的缺点是泛化性差,不能充分利用相似上下文用神经网络来训练语言模型的思想最早由百度 IDL (深度学习研究院)的徐伟提出,NNLM(Nerual Network Language Model)是这方面的一个经典模型,具体内容可参考 Bengio 2003年发表在JMLR上的论文。原文地址:http://jmlr.org/papers/volume3/bengio03a/bengio...

2021-10-03 22:37:02 636

原创 NLP学习笔记<2>

2.1 文本的表示 如何处理语言在计算机的存储和计算问题,是进行自然语言处理的第一步。朴素的基于规则的方法会导致资源的消耗和规则表达能力有限的情况。为了解决这些问题,基于机器学习的自然语言处理技术应运而生,其最本质的思想是将文本表示为向量,其中的每一位代表一个特征。利用这些值的加权求和计算,可以进行最后的判断,下面就文本的表示方法进行分析介绍。2.1.1词的独热表示(One-hot Encoding) 所谓词的独热表示,即使用一个词表大小的向量表示一个词(假设词表为,...

2021-10-03 01:10:49 438

原创 NLP学习笔记<1>

目录自然语言处理任务类别1.回归问题2.分类问题3.匹配问题4.解析问题5.生成问题自然语言处理技术发展历史自然语言处理(Natural Language Processing, NLP)主要研究用计算机理解和生成自然语言的各种理论和方法,属于人工智能领域的一个重要甚至核心分支,是计算机科学与语言学的交叉学科。目前机器在感知智能上的水平基本达到甚至超过了人类的水平。然而在设计自然语言处理以及常识建模和推理等研究的认知智能上,机器与人类还有很大的差距。自...

2021-10-01 21:10:55 171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除