本人双非院校,学校买的国泰安数据库居然在去年年底到期了!毕业论文急着要数据,发现了python中伟大的Tushare大数据社区,里面的金融经济数据很多,甚至比学校在国泰安订购的数据多,并且在python中可以及时调取,两三行命令就可以调取所需要的内容(tushare ID :454006)
pro = ts.pro_api('4b6e7c4f534f358a10b10a3edfdc4397c14f2fc633b3101ecfcca430')
data = pro.daily_basic(ts_code='600030.SH', start_date='20170601',end_date='20211231',fields='trade_date,close,turnover_rate,pe')
data.columns = ['Date','Close','Turnover_rate','PE']
接口均是可以更新的,三行命令获取到数据。虽然是取了两个特征,但通过实证发现,PE对预测收益率的影响不大,所以在实证中被删去了。下面对数据进行简单的归一化处理和划分数据集(划分数据集部分就省略了)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(-1, 1))
price['Close'] = scaler.fit_transform(price['Close'].values.reshape(-1,1))
price['Turnover_rate'] = scale