NLP学习笔记<2>

目录

2.1 文本的表示

2.1.1词的独热表示(One-hot Encoding)

2.1.2词的分布式表示

2.1.3词嵌入表示(Word Embedding)

2.1.4文本的词袋表示

2.2 自然语言处理任务

2.2.1语言模型

2.2.2自然语言处理基础任务

 2.2.3自然语言处理应用任务

2.3 基本问题

        2.3.1文本分类问题

        2.3.2结构预测问题

        2.3.3Seq2Seq问题


2.1 文本的表示

        如何处理语言在计算机的存储和计算问题,是进行自然语言处理的第一步。朴素的基于规则的方法会导致资源的消耗和规则表达能力有限的情况。为了解决这些问题,基于机器学习的自然语言处理技术应运而生,其最本质的思想是将文本表示为向量,其中的每一位代表一个特征。利用这些值的加权求和计算,可以进行最后的判断,下面就文本的表示方法进行分析介绍。

2.1.1词的独热表示(One-hot Encoding)

        所谓词的独热表示,即使用一个词表大小的向量表示一个词(假设词表为V,则其大小为|V|),然后将词表中的第i个词w_i表示为向量:

         在该向量中,此表的第i个词在第i维上被设置为1,其余维为0。这种表达方式会因为不同词完全由不同的向量表示,所以即使两个词意相近,两个词的相似度仍会被计算为0.另外,在基于机器学习的方法时,独热模型会导致数据稀疏(Data Sparsity),从而导致现象没有被充分学习。

        为解决上述问题,一般我们通过提取更多的和词相关的泛化特征,如次性特征、词义特征和词聚类特征等,但这也使得我们大部分精力放在了挖掘有效的特征上。

2.1.2词的分布式表示

        1.分布式语义假设

        基本思想:考虑上下文来推断词义和相关属性。通过对词表构建共现频次表,表中的每一项代表一个词w_i与另一个词w_j(上下文)在同一个句子中的共现频次,每个词与自身的共现频次设为0。

         但会造成至少以下三个问题

        1. 高频词误导计算错误  如“我”与“。”经常在句子中出现,而分布式表示会将其视为有较高相似度。

        2. 共现频次无法反映词之间的高阶关系。因为我们只构建了二元的共现频次表,所以词之间传递的深层关系我们仍无法知晓。

        3. 稀疏性问题,向量中仍有大量的0。

        2.点互信息

        为了解决高频词误导计算我们有最基本的思想:如果一个词与很多词共现,则降低其权重;反之,若一个词只与个别词共现,则提高其权重。这种思想被称作点互信息(Pointwise Mutual Information ,PMI)

        对于词w和上下文c,其PMI计算为:

         其中分子分母三项分别为w与c的共现概率,以及w和c分别出现的概率。

        此外可以利用最大似然估计计算p的值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值