LabeledSentence TaggedDocument TaggedLineDocument 区别及doc2vec相关

最新推荐文章于 2023-09-28 23:29:31 发布

anthea_luo

最新推荐文章于 2023-09-28 23:29:31 发布

阅读量1.2k

点赞数 2

分类专栏： NLP 深度学习文章标签： python

本文链接：https://blog.csdn.net/anthea_luo/article/details/117814291

版权

在网上搜的一些doc2vec的例子，在处理数据时，有的用的LabeledSentence 也有用TaggedDocument 也有用TaggedLineDocument的。
这几个名字长得好像，就搜了一下区别。大部分是讲 LabeledSentence TaggedDocument的区别，前者是老旧版本，不推荐使用，而推荐用后者。
但 TaggedDocument TaggedLineDocument 的区别就搜不到了。翻源码看一下就知道了：
本人gensim 版本3.8.1

@deprecated("Class will be removed in 4.0.0, use TaggedDocument instead")
class LabeledSentence(TaggedDocument):
    """Deprecated, use :class:`~gensim.models.doc2vec.TaggedDocument` instead."""
    pass

LabeledSentence 有个deprecated说明，直接建议使用TaggedDocument

class TaggedDocument(namedtuple('TaggedDocument', 'words tags')):
    """Represents a document along with a tag, input document format for :class:`~gensim.models.doc2vec.Doc2Vec`.

    A single document, made up of `words` (a list of unicode string tok