在网上搜的一些doc2vec的例子,在处理数据时,有的用的LabeledSentence 也有用TaggedDocument 也有用TaggedLineDocument的。
这几个名字长得好像,就搜了一下区别。大部分是讲 LabeledSentence TaggedDocument的区别,前者是老旧版本,不推荐使用,而推荐用后者。
但 TaggedDocument TaggedLineDocument 的区别就搜不到了。翻源码看一下 就知道了:
本人gensim 版本3.8.1
@deprecated("Class will be removed in 4.0.0, use TaggedDocument instead")
class LabeledSentence(TaggedDocument):
"""Deprecated, use :class:`~gensim.models.doc2vec.TaggedDocument` instead."""
pass
LabeledSentence 有个deprecated说明, 直接建议使用TaggedDocument
class TaggedDocument(namedtuple('TaggedDocument', 'words tags')):
"""Represents a document along with a tag, input document format for :class:`~gensim.models.doc2vec.Doc2Vec`.
A single document, made up of `words` (a list of unicode string tok