【论文阅读】Distributed Representation of Sentence and Document

本文提出Paragraph Vector(PV)模型,解决了传统bag-of-words模型忽略单词顺序和语义的问题。PV框架利用词向量表示,考虑单词顺序,适用于文本分类和聚类。实验表明,PV在情感分析、信息检索等任务上表现出色,且在不同上下文中能捕获语义信息。
摘要由CSDN通过智能技术生成

Abstract

传统的单词模型(bag-of-words)在实际应用中有一些缺点:

  1. They lose the ordering of the words,丢失了单词的顺序。
  2. They ignore semantics of the words,忽略了单词的语义。

因此本文提出了一种新的模型(Paragraph Vector),解决了上述的一些问题,带来了更好的效果。

Introduction

目前在很多的Text classification和clustering的应用中,使用最多的是bag-of-word模型,因为其表示起来简单,并且在实际应用中也表现了不错的准确度和有效性。

所谓bag-of-word模型,就是对一个单词进行独热编码,如果词典中总共有10000个词,某个词在词典中的索引比如是345,那么该单词的表示成一个10000维的向量,该向量第345位是1,其余均是0。

bag-of-word模型的表示方式注定了其会丢失单词与单词之间的联系,它不能反应两个词在语义上的联系,所以可能会出现两个词在语义上相近或相远,但是在模型中却有着一样的距离的现象。

本文提出的Paragraph Vector(PV) framework,可以实现从可变长度的句子或段落中学习出该句子或段落的特征。

所学出来的PV有许多用处,可以在给定上下文和一些词序列的情况下,预测出下一个词是什么。

本文的PV思想是受词向量(word representation)的工作启发得到的,在词向量学习的过程中。在词向量的学习的

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值