LabeledSentence TaggedDocument TaggedLineDocument 区别 及doc2vec相关


在网上搜的一些doc2vec的例子,在处理数据时,有的用的LabeledSentence 也有用TaggedDocument  也有用TaggedLineDocument的。
这几个名字长得好像,就搜了一下区别。大部分是讲 LabeledSentence  TaggedDocument的区别,前者是老旧版本,不推荐使用,而推荐用后者。 
但 TaggedDocument    TaggedLineDocument 的区别就搜不到了。翻源码看一下 就知道了:
本人gensim 版本3.8.1
 

@deprecated("Class will be removed in 4.0.0, use TaggedDocument instead")
class LabeledSentence(TaggedDocument):
    """Deprecated, use :class:`~gensim.models.doc2vec.TaggedDocument` instead."""
    pass
    

LabeledSentence 有个deprecated说明, 直接建议使用TaggedDocument

class TaggedDocument(namedtuple('TaggedDocument', 'words tags')):
    """Represents a document along with a tag, input document format for :class:`~gensim.models.doc2vec.Doc2Vec`.

    A single document, made up of `words` (a list of unicode string tok
Doc2Vec是Gensim中的一种文本表示方法,它可以将文本转换为向量表示,从而可以应用于各种文本分析任务,例如文本分类、聚类、信息检索等。Doc2Vec的核心思想是将文本表示为一个固定长度的向量,这个向量可以捕捉到文本的语义信息。 在使用Doc2Vec时,我们需要将每个文本转换为一个TaggedDocument对象,这个对象包含了文本的原始内容和对应的标签。标签可以是任何类型的数据,例如字符串、数字、元组等。具体使用步骤如下: 1. 导入TaggedDocumentDoc2Vec类: ``` from gensim.models.doc2vec import TaggedDocument, Doc2Vec ``` 2. 定义一个函数,将原始文本转换为TaggedDocument对象: ``` def tag_docs(docs, labels): tagged = [] for i, doc in enumerate(docs): label = labels[i] tagged.append(TaggedDocument(words=doc.split(), tags=[label])) return tagged ``` 其中,docs是一个列表,包含了所有的原始文本,labels是一个列表,包含了所有文本对应的标签。 3. 调用上面定义的函数,将原始文本转换为TaggedDocument对象: ``` tagged_docs = tag_docs(docs, labels) ``` 4. 初始化Doc2Vec模型,训练模型并获取文本向量表示: ``` model = Doc2Vec(tagged_docs, vector_size=100, window=5, min_count=5, epochs=20) vectors = model.docvecs.vectors_docs ``` 其中,vector_size表示文本向量的维度,window表示词窗口的大小,min_count表示词频的最小值,epochs表示训练的轮数。调用model.docvecs.vectors_docs可以获取所有文本的向量表示。 通过上述步骤,我们可以使用Doc2Vec将文本转换为向量表示,并应用于各种文本分析任务。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值