C2W介绍

       简介:

       1、提出了一种新的通过字符来构建词向量的方法,这种方法可以学习到单词中复杂的形式结构,从而在两个任务上得到最优的结果。

      2、单词之间不应该是彼此独立的,形式上的一致性会造成功能上的一致性,我们通过双向LSTM来学习这种形式一致性,并且取得了  非常好的结果。

     3、介绍词向量机制的两个缺点,并且介绍非词向量机制的方法。、

      摘要:

1.我们提出了一种新的使用字符和双向LSTM生成词表示的模型。

2.相对于传统的词向量方法,我们的C2W模型需要的参数比较少,主要有两部分,一部分是字符映射成向量的参数,一部分是组合模块LSTM的参数。

3.尽管我们的模型参数少,并且单词中的形式-功能关系很难学习,我们的模型在语言模型和词性标注任务上取得最优的结果。

4.这种优势在形态丰富的语言中更加明显。

C2W模型

    主要观察以下两个图:

 

    词嵌入model:word Embeddeding

     

     通过输入的词,获取字典中的词向量,输出embeddeding 词向量

 

  字符嵌入model:Char Embeddeding

  输入词,将词分为字符,之后计算字符的向量, 通过bi-lstm 生成双向的向量,之后拼接成embeddeding 向量

其中C 是字符表字符的个数, m 是 w输入的长度。

给定输入的向量 x1...xm 通过LSTM 计算生成隐向量,之后迭代计算。其中\sigma 是sigmod 函数 

通过LSTM 中的It(更新)、 ft(忘记)、Ot(输出) 三个门 可以控制Ct-1 to Ct  的信息

 

 将正向的LSTM 生成的向量  和 反向的LSTM 向量 sf0-sfm   和 sbm-sb0 组合成 

常用语语言model

优缺点:

缺点

•训练时还需要通过LSTM生成词表示,速度比词向量机制要慢

•测试时虽然可以通过缓存的方法预先生成一些词向量,但是对于OOV词的词表示生成依旧速度慢

优点

•能够解决OOV词问题

•可以捕获字符间的结构信息

•可以推理出相似结果的词表示

model 的应用

用于需要字符信息的任务,如序列标注

用于OOV词比较多的任务,如对抗样本

 

启发

•这种词的独立性假设是存在本质问题的,尤其是在形态学丰富的语言中。在这种形态学丰富的语言中,更合理的假设是形态相似的词功能上(语法和语义)可能也相似。

This paper argues that this independence assumption is inherently problematic, in particular in morphologically rich languages (e.g., Turkish). In such languages, a more reasonable assumption would be that orthographic (formal) similarity is evidence for functional similarity (Introduction P1)

•我们这篇工作的目的不是为了超越基准模型,而是为了说明基准模型中的特征工程可以从数据中自动学习出来。

The goal of our work is not to overcome existing benchmarks, but show that much of the feature engineering done in the benchmarks can be learnt automatically from the task specific data. (5.5 Discussion P1)

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值