datawhale:Task 3: Subword Models

1 人类语言声音:语音学和音系学

  • Phonetics 语音学是一种音流——物理学或生物学
  • Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme 音素 或者是独特的特征
    • 这也许是一种普遍的类型学,但却是一种特殊的语言实现
    • 分类感知的最佳例子就是语音体系
      • 音位差异缩小;音素之间的放大
        在这里插入图片描述

Morphology: Parts of words

  • 声音本身在语言中没有意义
  • parts of words 是音素的下一级的形态学,是具有意义的最低级别
    在这里插入图片描述
  • 传统上,morphemes 词素是最小的语义单位 semantic unit
  • 深度学习:形态学研究较少;递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013)
    • 处理更大词汇量的一种可能方法——大多数看不见的单词是新的形态(或数字)
      在这里插入图片描述
  • 一个简单的替代方法是使用字符 n-grams
    • Wickelphones (Rumelhart& McClelland 1986)
    • Microsoft’s DSSM (Huang, He, Gao, Deng, Acero, & Hect2013)
  • 使用卷积层的相关想法

2 单词之下的书写系统

大部分深度学习的任务都是从语言的书写形式来处理语言的,这是一个简单的过程,需要寻找数据。

纯粹的字符级别的模型

  • 刚开始效果并不好
  • 后来只有解码器使用
  • 然后变成了有前景的结果

3 子单词模型:两个趋势

  1. 和单词级别的模型有相同的架构
  2. 但是使用了更少的词单元:“词块”

Hybrid architectures:主要的模型含有单词,一些其他的含有字符

字节对的编码

使用的是一个压缩算法:将大部分频繁出现的字节对标记为新的字节对。
在这里插入图片描述

  • 有一个目标词汇量,当你达到时就停止
  • 确定最长段的单词分割
  • 分割的单词是由之前的标记器标记的
  • 不再有传统意义上的单词出现

4 字符级来构建单词级

Learning Character-level Representations for Part-ofSpeech Tagging (Dos Santos and Zadrozny2014)

  • 对字符进行卷积以生成单词嵌入
  • 为PoS标签使用固定窗口的词嵌入
    在这里插入图片描述

Character-based LSTM to build word rep’ns

在这里插入图片描述

Bi-LSTM构建单词表示

在这里插入图片描述

5 FastText embeddings

用子单词信息丰富单词向量
Bojanowski, Grave, Joulinand Mikolov. FAIR. 2016. https://arxiv.org/pdf/1607.04606.pdf• https://fasttext.cc

  • 目标:下一代高效的类似于word2vecd的单词表示库,但更适合于具有大量形态学的罕见单词和语言
  • 带有字符n-grams的 w2v 的 skip-gram模型的扩展
  • 将单词表示为用边界符号和整词扩充的字符n-grams
  • where =<wh,whe,her,ere,re>,
    • 注意 $ , <her $ 是不同于 her 的
      • 前缀、后缀和整个单词都是特殊的
  • 将word表示为这些表示的和。上下文单词得分为
    • S(w, c)=\sum g \in G(w) \mathbf{Z}{g}^{\mathrm{T}} \mathbf{V}{C}
    • 细节:与其共享所有n-grams的表示,不如使用“hashing trick”来拥有固定数量的向量
      在这里插入图片描述
  • 罕见单词的差异收益
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值