超大语料库,5W+份年报!公司研究必备词向量

1926

2007-2023MD&A语料词向量)

数据简介

在文本分析中,词典构建是一切分析的基础,为了保证词典的完整性,研究者们通常会在人工收集的基础上通过word2vec对词典进行扩展,而扩展使用的语料则决定了扩展之后的词典是否具有科学性。本团队考虑到这一点,使用2007-2023年上市公司管理层讨论(MD&A)的语料训练word2vec模型并导出词向量。使用大量上市公司管理层讨论(MD&A)语料训练好的词向量能够精准捕捉金融领域专业语义与行业特征,有效建模财务术语、战略表述等领域特定语言规律,准确刻画管理层语调中的情感倾向与信息隐藏(如风险提示、业绩预期),其价值在于为金融文本情感分析、风险预警、信息抽取等下游任务提供强领域适配性的语义表示,减少对金融领域标注数据的依赖,提升模型在处理 MD&A 文本时的语义理解精度与任务性能,助力资本市场监管、投资分析等场景实现更深度的文本智能解析。

本次提供的词向量命名为vectors.bin,大小为2.37G

数据来源

由数据皮皮侠团队人工整理,全部内容真实有效。

时间跨度

2007-2023年

数据范围

上市公司

数据格式

数据格式为.bin(二进制)形式

词向量使用方法

图片

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值