文本挖掘(Word2Vec)小案例《每日新闻预测金融市场变化》

最新推荐文章于 2024-01-07 02:04:23 发布

Daryl_Li

最新推荐文章于 2024-01-07 02:04:23 发布

阅读量1.1k

点赞数

分类专栏： python案例文章标签： python 文本挖掘 Word2Vec 自然语言处理 python案例

本文链接：https://blog.csdn.net/daryl5/article/details/103096632

版权

数据简介

本案例用到的原始数据是一个简单的数据集，其中包括从国外某网站捞取的每日新闻排序（25条），然后以当日的股票市场涨跌作为Label。从而根据对新闻的挖掘，来判断当日股票涨跌。

数据集大致长这样(部分截图)：
Date：日期数据，本案例文本分析就不用这个数据了。
Label：当日股票市场情况，1代表上涨，0代表下跌。
Top*：共25列，表示当日的相关新闻。
在这里插入图片描述
下面利用Word2Vec简单的进行文本的向量化处理，代码也都比较简单，重点是关注处理流程。

导入数据：

import numpy as np
import pandas as pd
from sklearn.metrics import roc_auc_score
from datetime import date

#读入数据
data=pd.read_csv(r'E:\python\news stock\input\Combined_News_DJIA.csv')
#观察数据
data.head()

分割测试/训练集:

#分割测试/训练集，保留部分数据测试用
train=data[data['Date']<'2015-01-01']
test=data[data['Date']>'2014-12-31']

#把每条新闻做成一个单独的句子，集合在一起
X_train=train[train.columns[2:]]
corpus=X_train.values.flatten().astype(str)

X_train=X_train.values.astype(str)
X_train=np.array([' '.join(x) for x in X_train])
X_test=test[test.columns[