1926
2007-2023MD&A语料词向量)
数据简介
在文本分析中,词典构建是一切分析的基础,为了保证词典的完整性,研究者们通常会在人工收集的基础上通过word2vec对词典进行扩展,而扩展使用的语料则决定了扩展之后的词典是否具有科学性。本团队考虑到这一点,使用2007-2023年上市公司管理层讨论(MD&A)的语料训练word2vec模型并导出词向量。使用大量上市公司管理层讨论(MD&A)语料训练好的词向量能够精准捕捉金融领域专业语义与行业特征,有效建模财务术语、战略表述等领域特定语言规律,准确刻画管理层语调中的情感倾向与信息隐藏(如风险提示、业绩预期),其价值在于为金融文本情感分析、风险预警、信息抽取等下游任务提供强领域适配性的语义表示,减少对金融领域标注数据的依赖,提升模型在处理 MD&A 文本时的语义理解精度与任务性能,助力资本市场监管、投资分析等场景实现更深度的文本智能解析。
本次提供的词向量命名为vectors.bin,大小为2.37G
数据来源
由数据皮皮侠团队人工整理,全部内容真实有效。
时间跨度
2007-2023年
数据范围
上市公司
数据格式
数据格式为.bin(二进制)形式
词向量使用方法