数据简介
本案例用到的原始数据是一个简单的数据集,其中包括从国外某网站捞取的每日新闻排序(25条),然后以当日的股票市场涨跌作为Label。从而根据对新闻的挖掘,来判断当日股票涨跌。
数据集大致长这样(部分截图):
Date:日期数据,本案例文本分析就不用这个数据了。
Label:当日股票市场情况,1代表上涨,0代表下跌。
Top*:共25列,表示当日的相关新闻。
下面利用Word2Vec简单的进行文本的向量化处理,代码也都比较简单,重点是关注处理流程。
导入数据:
import numpy as np
import pandas as pd
from sklearn.metrics import roc_auc_score
from datetime import date
#读入数据
data=pd.read_csv(r'E:\python\news stock\input\Combined_News_DJIA.csv')
#观察数据
data.head()
分割测试/训练集:
#分割测试/训练集,保留部分数据测试用
train=data[data['Date']<'2015-01-01']
test=data[data['Date']>'2014-12-31']
#把每条新闻做成一个单独的句子,集合在一起
X_train=train[train.columns[2:]]
corpus=X_train.values.flatten().astype(str)
X_train=X_train.values.astype(str)
X_train=np.array([' '.join(x) for x in X_train])
X_test=test[test.columns[