基于财报的次日股票价格涨跌预测方案分享

上市公司的信息披露行为指上市公司根据相关法规和规定,向投资者和公众披露与公司经营和股票价格相关的重要信息的行为。信息披露是上市公司的义务和责任,旨在保护投资者的合法权益,提高市场透明度,维护市场的公平性和健康发展。

基于上市公司公告文本信息预测次日价格涨跌的挑战赛旨在探索文本数据与股票价格之间的关联性,并利用自然语言处理和机器学习技术来进行股票价格的预测。参赛者将通过分析上市公司的公告文本,预测其次日股票价格的涨跌情况,以此提高投资者的决策能力和金融从业者的风险管理能力。

技术交流

建了技术交流群!想要进交流群、获取原版资料的同学,可以直接加微信号:dkl88194。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、添加微信号:dkl88194,备注:来自CSDN + 技术交流
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

赛事任务

本次挑战赛提供了部分上市公司的公告文本数据以及对应的次日股票价格涨跌情况作为训练样本,参赛选手基于提供的样本构建模型,探索文本数据与股票价格之间的关系,并提出有效的预测模型。通过交叉验证等方法对模型进行评估,并根据评估结果对模型进行优化。最终,通过预测股票价格的涨跌,参赛选手可以为投资者提供更准确的预测结果,帮助他们做出更明智的投资决策,同时也对金融领域的研究和实际应用做出贡献。

评审规则

数据说明

本次比赛为参赛选手提供了2类数据:上市公司的公告文本数据以及对应的次日股票价格涨跌情况。公告文本数据包括文本内容以及披露时间等关键信息。所有数据均为公开数据,数据集提供近期的公告文本信息,例如三个月,具体日期范围以提供数据为准。

评估指标

本模型的预测准确率依据提交的结果文件,采用F1-score进行评价。

此外,依据参赛选手提交的技术报告,评估模型方法的科学性以及提取特征因子的有效性,选手需在报告中说明各个因子的来源以及对股票涨跌预测的贡献。

优胜方案分享

投资需谨慎

第一名选手介绍了他们团队的成员构成和算法方案。他们团队的成员主要来自北京大学智能学和经济管理学,他们利用自然语言处理和机器学习技术构建了一个基于BERT模型的股票价格预测模型。

图片

图片

图片

图片

图片

图片

图片

图片

他们的算法方案主要包括以下几个步骤:

  1. 数据收集和预处理:他们从公开渠道收集了大量的上市公司财报文本数据,并进行了数据清洗和预处理,包括去除噪声、标记化、分词等。

  2. 模型构建:他们使用了BERT模型作为基础模型,通过预训练和微调的方式来提取文本的上下文表示。他们只更新BERT模型的最后六层和分类层,并使用交叉熵损失函数进行训练。

  3. 数据增强:为了增加训练数据的规模,他们额外收集了大量的财报数据,并将其作为训练集,将主办方提供的数据作为验证集。他们通过数据匹配和去重的方式,确保训练集中不包含验证集的数据。

  4. 模型评估和优化:他们使用验证集对模型进行评估,并根据评估结果进行模型的优化。他们还分析了数据规模对模型性能的影响,并提出了进一步增加训练数据的优化思路。

第一名还提到了他们团队的下阶段优化思路,包括进一步增加训练数据、尝试其他大语言模型、添加可解释性等方面的工作。

划水大队

第二名选手介绍了他们团队的成员构成和算法方案。他们团队的成员主要来自中科学院计算所和人大,他们利用财报PDF文本进行股票价格涨跌的预测,将其作为二分类任务,并使用F1-score作为评估指标。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

他们的算法方案主要包括以下几个步骤:

  1. 数据预处理:他们使用pdf2text工具将财报PDF转换为文本格式,并进行了长度分析和零一分布统计。

  2. 模型选择:他们选择了Reformer模型作为基础模型,因为它可以接受较长的文本长度,并使用前100个字作为输入。

  3. 模型训练和优化:他们使用常规的训练优化策略,包括Full Class、学习率规划器和优化算法,如Cosine和Adam。

  4. 模型推理和性能:他们使用单模型进行推理,推理时间大约为12分钟,效果良好。

第二名还提到了他们团队的下阶段优化思路,包括尝试不同的底层模型和数据集的分析。他们的方法相比其他选手的创新点在于使用Reformer模型处理较长的文本,并通过前100个字来反映财报的利好利坏消息。他们的算法在推理性能和效果上都表现出色。

小柚子

第三名选手绍了他们团队的成员构成和算法方案。他们团队的成员来自电信运营商、银行和医训科技,拥有金融和机器学习的背景,并在过去的比赛中获得了一些奖项。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

他们的算法方案主要包括以下几个步骤:

  1. 数据读取和清洗:他们使用第三方Python包读取财报的PDF数据,并进行了数据清洗和预处理。

  2. 预处理和特征分析:他们对财报文本进行了分词和TF-IDF编码,并分析了关键词的分布和对股价涨跌的影响。

  3. 算法模型:他们使用了BERT模型和TF-IDF加LGB的二分类模型,并进行了模型融合。

  4. 结果融合:他们将BERT模型的输出作为主要结果,并根据TF-IDF模型的概率值在两个极端进行修正。

第三名还提到了他们团队的下阶段优化思路,包括使用外部数据、考虑整体大盘行情和公司基本面的走势等。他们的算法在模型选择和特征提取上做了一些创新,并通过模型融合提高了预测效果。

  • 22
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值