文本表示概览

文本表示

文本表示是自然语言处理任务中一项基础任务,一个好的文本表示对下游的任务效果有非常关键的决定作用,最常见的如文本聚类、分类等。

  • 概论
    如何描述一个句子,其实可以从两个方面进行思考,第一个是进行表示句子是由词序列构成的,那么句子的表示自然可以由构成该句子的次序列表示; 在一个是句子是篇章的构成元素,那么句子也可以由篇章中句子的环境进行表示,这里应用的常识是信息的局部性

  • 传统表示方法
    这里的传统表示方法是针对目前正火的深度学习浪潮而言的。
    (1)文本的字符表示,直接用句子的词、或者词的ngram信息进行表示。缺点是非数字不能数学计算只能匹配,词的相似性也只能依靠外部词典进行表示。
    (2)文本的数量表示,如one-hot、tf-idf等表示,带有了一定量的统计信息,表示效果有所改善,并且表示有数学表示可以通过距离公式进行相似性计算,缺点是向量稀疏占用空间大,词的相似无法很好的刻画。
    (3)局部哈希算法,感觉使用于中等长度的句子,太长和太短都不太好,对句法和次序敏感。
    (4)doc2vec,gensim包里面就有,有LSI和doc2vec两种方式,LSI主要依靠数据降维,解释性不太好,模型也不小。doc2vec对集外数据不敏感。

  • 基于深度学习的句子表示
    深度学习的句子向量表示一般和任务相关,如分类生成等。
    (1)skip-thought:借助生成模型,用该句子的表示去生成其上下文,因为再常识中拥有相似上下文的句子其语义也是相似的,对文本的结构依赖就相对弱了一些。但是在实验中发现尾词对其表示影响较大。
    (2)quick-thought:借助的是一个分类模型,依赖的常识是相邻的句子语义相关性要比不相邻的句子要大。实验发现其结果不是很稳定,有些句子会比较离谱,可能和训练数据有关系。说道了分类,感觉原理上和语义匹配模型DSSM神似啊。也就是说分类本质上是一个空间映射的问题,当分类标签为句子语义的时候,那么在分类任务的下游任务去除,其编码表示就可以是语义表示。类别太粗是不行的。

  • 基于语言模型的句子表示
    (1)bert:这个是真火,用到了词之间的相关和句子之间的相关。还如:ELMo、GPT等。这这里就不展开了,语言模型需要海量的训练语料,高性能的计算资源,不是普通晚间可以玩得起的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

花咪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值