gensim中TaggedDocument 怎么使用

我有两个目录,我想从中读取它们的文本文件并给它们贴上标签,但我不知道如何通过taggedDocument来实现这一点。我以为它可以作为标记文档([strings],[labels])工作,但这显然不起作用。

from gensim import models
from gensim.models.doc2vec import TaggedDocument
import utilities as util
import os
from sklearn import svm
from nltk.tokenize import sent_tokenize
CogPath = "./FixedCog/"
NotCogPath = "./FixedNotCog/"
SamplePath ="./Sample/"
docs = []
tags = []
CogList = [p for p in os.listdir(CogPath) if p.endswith('.txt')]
NotCogList = [p for p in os.listdir(NotCogPath) if p.endswith('.txt'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Doc2Vec是Gensim的一种文本表示方法,它可以将文本转换为向量表示,从而可以应用于各种文本分析任务,例如文本分类、聚类、信息检索等。Doc2Vec的核心思想是将文本表示为一个固定长度的向量,这个向量可以捕捉到文本的语义信息。 在使用Doc2Vec时,我们需要将每个文本转换为一个TaggedDocument对象,这个对象包含了文本的原始内容和对应的标签。标签可以是任何类型的数据,例如字符串、数字、元组等。具体使用步骤如下: 1. 导入TaggedDocument和Doc2Vec类: ``` from gensim.models.doc2vec import TaggedDocument, Doc2Vec ``` 2. 定义一个函数,将原始文本转换为TaggedDocument对象: ``` def tag_docs(docs, labels): tagged = [] for i, doc in enumerate(docs): label = labels[i] tagged.append(TaggedDocument(words=doc.split(), tags=[label])) return tagged ``` 其,docs是一个列表,包含了所有的原始文本,labels是一个列表,包含了所有文本对应的标签。 3. 调用上面定义的函数,将原始文本转换为TaggedDocument对象: ``` tagged_docs = tag_docs(docs, labels) ``` 4. 初始化Doc2Vec模型,训练模型并获取文本向量表示: ``` model = Doc2Vec(tagged_docs, vector_size=100, window=5, min_count=5, epochs=20) vectors = model.docvecs.vectors_docs ``` 其,vector_size表示文本向量的维度,window表示词窗口的大小,min_count表示词频的最小值,epochs表示训练的轮数。调用model.docvecs.vectors_docs可以获取所有文本的向量表示。 通过上述步骤,我们可以使用Doc2Vec将文本转换为向量表示,并应用于各种文本分析任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值