词级语言建模与字符级语言建模

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


目前在自然语言理解问题中,字符级语言建模得到越来越多的关注。在这里,我简单地比较了一下字符级语言模型和词级语言模型。

词级语言建模是指把词作为文本信息的最小单位。在语义空间中,单词就好像是空间中的一个节点。在这种情况下,通过 TF 技术或者主题模型技术或者词嵌入模型来生成特征向量或字矢量,每个单词都用一个数字或者一个矢量来表示,之后就可以像循环神经网络这样的模型进行训练。目前,比较流行的方法是使用词嵌入来得到特征向量。该方法是训练一个大型的语料库,从而来得到一个 Word2Vec 模型。Word2Vec 模型包含一个词典,其中每个单词都是一个矢量化信息。

字符级语言建模就像用一个 0-1 向量来表示每一个字符,并且将这个向量送入模型进行训练,而文本中的语法和单词语义被简单地忽略掉,因为我们相信模型可以捕捉到这些语法和单词语义信息。字符级语言建模的思想来自于信号处理。

语言建模中面临的挑战是字符级语言建模,它需要大量的数据和足够多的训练次数,以便使得模型可以足够聪明从文本中提取出语法信息和单词语义信息。此外,它还需要数据扩充(通过使用同义词替换文本的部分),以避免泛化错误。

另一方面,词级语言建模的缺点是需要使用额外的 Word2Vec 分布模型,但构建这个模型需要大量的时间和精力。

如果我们使用 Tweet 的字向量来训练模型,那么字符级语言建模在短文本分析中能取得卓越的表现。

我们在使用词级语言建模时,我们会导入一个巨大的 Word2Vec 模型,并且还要分析那些未知词和拼写错误的单词。

那么,哪个模型是最好的呢?

我个人认为,字符级语言建模更像人类的智慧。假设,我们能构建一个足够聪明的模型,这个模型能理解更高级别的表示(比如,单词语义等),那么这个字符级语言建模就是非常伟大的。


来源:rnnandi

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值