datawhale:Task 3: Subword Models

1 人类语言声音:语音学和音系学

  • Phonetics 语音学是一种音流——物理学或生物学
  • Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme 音素 或者是独特的特征
    • 这也许是一种普遍的类型学,但却是一种特殊的语言实现
    • 分类感知的最佳例子就是语音体系
      • 音位差异缩小;音素之间的放大
        在这里插入图片描述

Morphology: Parts of words

  • 声音本身在语言中没有意义
  • parts of words 是音素的下一级的形态学,是具有意义的最低级别
    在这里插入图片描述
  • 传统上,morphemes 词素是最小的语义单位 semantic unit
  • 深度学习:形态学研究较少;递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013)
    • 处理更大词汇量的一种可能方法——大多数看不见的单词是新的形态(或数字)
      在这里插入图片描述
  • 一个简单的替代方法是使用字符 n-grams
    • Wickelphones (Rumelhart& McClelland 1986)
    • Microsoft’s DSSM (Huang, He, Gao, Deng, Acero, & Hect2013)
  • 使用卷积层的相关想法

2 单词之下的书写系统

大部分深度学习的任务都是从语言的书写形式来处理语言的,这是一个简单的过程,需要寻找数据。

纯粹的字符级别的模型

  • 刚开始效果并不好
  • 后来只有解码器使用
  • 然后变成了有前景的结果

3 子单词模型:两个趋势

  1. 和单词级别的模型有相同的架构
  2. 但是使用了更少的词单元:“词块”

Hybrid architectures:主要的模型含有单词,一些其他的含有字符

字节对的编码

使用的是一个压缩算法:将大部分频繁出现的字节对标记为新的字节对。
在这里插入图片描述

  • 有一个目标词汇量,当你达到时就停止
  • 确定最长段的单词分割
  • 分割的单词是由之前的标记器标记的
  • 不再有传统意义上的单词出现

4 字符级来构建单词级

Learning Character-level Representations for Part-ofSpeech Tagging (Dos Santos and Zadrozny2014)

  • 对字符进行卷积以生成单词嵌入
  • 为PoS标签使用固定窗口的词嵌入
    在这里插入图片描述

Character-based LSTM to build word rep’ns

在这里插入图片描述

Bi-LSTM构建单词表示

在这里插入图片描述

5 FastText embeddings

用子单词信息丰富单词向量
Bojanowski, Grave, Joulinand Mikolov. FAIR. 2016. https://arxiv.org/pdf/1607.04606.pdf• https://fasttext.cc

  • 目标:下一代高效的类似于word2vecd的单词表示库,但更适合于具有大量形态学的罕见单词和语言
  • 带有字符n-grams的 w2v 的 skip-gram模型的扩展
  • 将单词表示为用边界符号和整词扩充的字符n-grams
  • where =<wh,whe,her,ere,re>,
    • 注意 $ , <her $ 是不同于 her 的
      • 前缀、后缀和整个单词都是特殊的
  • 将word表示为这些表示的和。上下文单词得分为
    • S(w, c)=\sum g \in G(w) \mathbf{Z}{g}^{\mathrm{T}} \mathbf{V}{C}
    • 细节:与其共享所有n-grams的表示,不如使用“hashing trick”来拥有固定数量的向量
      在这里插入图片描述
  • 罕见单词的差异收益
    在这里插入图片描述
展开阅读全文

Git 实用技巧

11-24
这几年越来越多的开发团队使用了Git,掌握Git的使用已经越来越重要,已经是一个开发者必备的一项技能;但很多人在刚开始学习Git的时候会遇到很多疑问,比如之前使用过SVN的开发者想不通Git提交代码为什么需要先commit然后再去push,而不是一条命令一次性搞定; 更多的开发者对Git已经入门,不过在遇到一些代码冲突、需要恢复Git代码时候就不知所措,这个时候哪些对 Git掌握得比较好的少数人,就像团队中的神一样,在队友遇到 Git 相关的问题的时候用各种流利的操作来帮助队友于水火。 我去年刚加入新团队,发现一些同事对Git的常规操作没太大问题,但对Git的理解还是比较生疏,比如说分支和分支之间的关联关系、合并代码时候的冲突解决、提交代码前未拉取新代码导致冲突问题的处理等,我在协助处理这些问题的时候也记录各种问题的解决办法,希望整理后通过教程帮助到更多对Git操作进阶的开发者。 本期教程学习方法分为“掌握基础——稳步进阶——熟悉协作”三个层次。从掌握基础的 Git的推送和拉取开始,以案例进行演示,分析每一个步骤的操作方式和原理,从理解Git 工具的操作到学会代码存储结构、演示不同场景下Git遇到问题的不同处理方案。循序渐进让同学们掌握Git工具在团队协作中的整体协作流程。 在教程中会通过大量案例进行分析,案例会模拟在工作中遇到的问题,从最基础的代码提交和拉取、代码冲突解决、代码仓库的数据维护、Git服务端搭建等。为了让同学们容易理解,对Git简单易懂,文章中详细记录了详细的操作步骤,提供大量演示截图和解析。在教程的最后部分,会从提升团队整体效率的角度对Git工具进行讲解,包括规范操作、Gitlab的搭建、钩子事件的应用等。 为了让同学们可以利用碎片化时间来灵活学习,在教程文章中大程度降低了上下文的依赖,让大家可以在工作之余进行学习与实战,并同时掌握里面涉及的Git不常见操作的相关知识,理解Git工具在工作遇到的问题解决思路和方法,相信一定会对大家的前端技能进阶大有帮助。
©️2020 CSDN 皮肤主题: 游动-白 设计师: 上身试试 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值