from gensim.models.doc2vec import Doc2Vec,TaggedDocument
import pandas as pd
def D2V():
article = pd.read_excel('data.xlsx') #data为训练集,繁体
sentences = article['内容'].tolist()
split_sentences = []
for i in sentences:
split_sentences.append(i.split(' '))
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(split_sentences)]
# 任务:基于 gensim 构建 doc2vec 模型并命名为doc2vec_stock进行保存
# ********** Begin *********#
model = Doc2Vec(documents, size=100, window=5, min_count=5, workers=4, epoch=5000)
model.save("doc2vec_stock.model")
# ********** End **********#
向量化算法 doc2vec
最新推荐文章于 2023-08-18 09:57:23 发布
该篇博客介绍了如何使用Gensim的Doc2Vec模型对繁体中文的股票相关文章内容进行向量化处理,通过'content'列创建句子切分,然后训练了一个大小为100维的模型,并保存为doc2vec_stock.model,适合于文本挖掘和股票情感分析应用。
摘要由CSDN通过智能技术生成