向量化算法 doc2vec

最新推荐文章于 2023-08-18 09:57:23 发布

楊咩咩呀

最新推荐文章于 2023-08-18 09:57:23 发布

阅读量1k

点赞数

文章标签： python 深度学习 pytorch

本文链接：https://blog.csdn.net/qq_57063581/article/details/124551443

版权

该篇博客介绍了如何使用Gensim的Doc2Vec模型对繁体中文的股票相关文章内容进行向量化处理，通过'content'列创建句子切分，然后训练了一个大小为100维的模型，并保存为doc2vec_stock.model，适合于文本挖掘和股票情感分析应用。

摘要由CSDN通过智能技术生成

from gensim.models.doc2vec import Doc2Vec,TaggedDocument  
import pandas as pd
def D2V():  
    article = pd.read_excel('data.xlsx') #data为训练集，繁体  
    sentences = article['内容'].tolist()  
    split_sentences = []  
    for i in sentences:  
        split_sentences.append(i.split(' '))
    documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(split_sentences)]
# 任务：基于 gensim 构建 doc2vec 模型并命名为doc2vec_stock进行保存  
# ********** Begin *********#  
    model = Doc2Vec(documents, size=100, window=5, min_count=5, workers=4, epoch=5000)  
    model.save("doc2vec_stock.model") 
# ********** End **********#

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

楊咩咩呀

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
向量化算法 doc2vec

from gensim.models.doc2vec import Doc2Vec,TaggedDocument import pandas as pddef D2V(): article = pd.read_excel('data.xlsx') #data为训练集，繁体 sentences = article['内容'].tolist() split_sentences = [] for i in sentences: split.
复制链接

扫一扫