一种互联网文本数据与证券价格波动关联分析的流程图

一种互联网文本数据与证券价格波动关联分析的流程图

挖掘目的

  1. 建立从互联网非结构化文本与证券市场标的特征的关联关系
  2. 建立从关联特征到证券标的价格的关联关系

建模思想

  1. 尽可能使用非标注数据,降低样本工程成本

  2. 向量化,无监督,降低特征工程成本

  3. 语言建模使用谷歌开源语言模型,降低训练成本,降低硬件需求

  4. 特征工程建模,向量化特征为主,预留规则部分入口

  5. 操作信号生成器模型,与文法特征提取关联模型解偶,操作信号的生成与文法特征的关系由单独的矩阵表达.

    该模块难度较大.

  6. 面向动态的不完整的语料,使用xgboost等回归树模型,对结构化的预测数据进行提升

  7. 应用不面向终端用户,效果优先于工程性能

工程化

  1. 文本预处理部分
Created with Raphaël 2.2.0 数据容器 数据预处理 读取pipeliine数据文件 编码格式转换\字符符号分离 保存为pipeline数据源文件形式,如RECORD._TF yes no

数据复用,提供训练速度,降低ETL数据治理成本

数据整合为数据集,封闭测试验证环境,便于后续对比

  1. 文本向量化文档标签化
Created with Raphaël 2.2.0 特征工程 谷歌语言模型Bert 文本向量化 向量化特征工程 分词/词性标注/分块 LDA/LSI/TFIDF/Bert主题分类 输出 规则先验知识/正则 yes no yes no yes no no

文档向量化,便于应用数学工具

预留规则化入口,接入规则

  1. 特征学习层
Created with Raphaël 2.2.0 特征输入 不同维度的文本向量 字词维度 模型训练部分 xgboost模型融合 文档段落维度 yes no

字,词,句,段落,文章,文本集合,不同维度的向量化,输入模型进行训练

  1. 模型训练

    • 周期性数据:ARIMA

    • 时间序列预测:Bert, Bilstm

    • 分类任务:Bert, SVM


交易信号生成层(风险点不确定)

  1. 交易信号生成与文法特征呈变化的映射关系,即当前特征与交易信号的关系,伴随时间空间推移会变化
  2. 模型选择GAN Q-估值网络(不确定?有风险)
  3. GAN使用生成器判别器件,动态适配,挑选出可以通过判别器的特征
  4. Q-估值网络,需要较多的反馈与标注成本(成本风险不可控?)

一元

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值