一种互联网文本数据与证券价格波动关联分析的流程图
挖掘目的
- 建立从互联网非结构化文本与证券市场标的特征的关联关系
- 建立从关联特征到证券标的价格的关联关系
建模思想
-
尽可能使用非标注数据,降低样本工程成本
-
向量化,无监督,降低特征工程成本
-
语言建模使用谷歌开源语言模型,降低训练成本,降低硬件需求
-
特征工程建模,向量化特征为主,预留规则部分入口
-
操作信号生成器模型,与文法特征提取关联模型解偶,操作信号的生成与文法特征的关系由单独的矩阵表达.
该模块难度较大.
-
面向动态的不完整的语料,使用xgboost等回归树模型,对结构化的预测数据进行提升
-
应用不面向终端用户,效果优先于工程性能
工程化
- 文本预处理部分
数据复用,提供训练速度,降低ETL数据治理成本
数据整合为数据集,封闭测试验证环境,便于后续对比
- 文本向量化文档标签化
文档向量化,便于应用数学工具
预留规则化入口,接入规则
- 特征学习层
字,词,句,段落,文章,文本集合,不同维度的向量化,输入模型进行训练
-
模型训练
-
周期性数据:ARIMA
-
时间序列预测:Bert, Bilstm
-
分类任务:Bert, SVM
-
交易信号生成层(风险点不确定)
- 交易信号生成与文法特征呈变化的映射关系,即当前特征与交易信号的关系,伴随时间空间推移会变化
- 模型选择GAN Q-估值网络(不确定?有风险)
- GAN使用生成器判别器件,动态适配,挑选出可以通过判别器的特征
- Q-估值网络,需要较多的反馈与标注成本(成本风险不可控?)
一元