SEC EDGAR文本提取工具:高效获取公司财务数据

SEC EDGAR文本提取工具:高效获取公司财务数据

SEC-EDGAR-text Text information from US companies' SEC EDGAR electronic filings SEC-EDGAR-text 项目地址: https://gitcode.com/gh_mirrors/se/SEC-EDGAR-text

项目介绍

SEC EDGAR Text 是一个开源项目,旨在从美国证券交易委员会(SEC)的EDGAR数据库中下载大量公司文件,并提取关键文本部分,以便于存储和后续处理。该项目不仅支持自动化处理(如自然语言处理NLP),还支持人工阅读(如抽查)。通过结构化的文本和元数据存储,以及对失败文档分析的日志记录,SEC EDGAR Text 提供了一个灵活且可扩展的解决方案,适用于大规模下载和定制化文本提取。

项目技术分析

SEC EDGAR Text 项目基于Python开发,利用了SEC-Edgar-Crawler等开源工具的初始想法,并在此基础上进行了扩展和优化。项目支持从1993年至今的所有主要EDGAR文档格式,能够灵活地选择和提取文档中的不同部分。通过命令行参数,用户可以自定义下载的公司列表、文件类型、存储位置、多进程选项、下载速率等,极大地提高了数据获取的效率和灵活性。

项目及技术应用场景

SEC EDGAR Text 适用于多种应用场景,包括但不限于:

  1. 金融研究:研究人员可以通过该项目快速获取大量公司的财务报告文本,进行文本分析和情感分析,以研究市场趋势和公司表现。
  2. 数据分析:数据科学家可以利用提取的文本数据进行机器学习和自然语言处理,构建预测模型或进行数据挖掘。
  3. 合规性检查:公司和投资者可以使用该项目定期下载和分析公司文件,确保符合SEC的披露要求。
  4. 学术研究:学者可以利用该项目获取大规模的文本数据,进行学术研究,如公司治理、市场行为分析等。

项目特点

  • 高效下载:支持大规模下载,通过多进程和自定义下载速率,提高数据获取效率。
  • 灵活提取:用户可以自定义提取文档中的不同部分,满足不同的分析需求。
  • 结构化存储:文本和元数据以结构化方式存储,便于后续处理和分析。
  • 易于扩展:项目设计灵活,易于扩展和定制,支持不同类型的文档格式和提取需求。
  • 开源社区支持:项目欢迎社区贡献和反馈,不断优化和改进。

使用指南

安装

git clone https://github.com/alions7000/SEC-EDGAR-text
pip install -r SEC-EDGAR-text/requirements.txt

基本使用

python SEC-EDGAR-text

典型使用

python SEC-EDGAR-text --storage=/path/to/my_storage_location --start=20150101 --end=99991231 --filings=10-K --multiprocessing_cores=0 --traffic_limit_pause_ms=500

通过SEC EDGAR Text,您可以轻松获取和处理大量公司财务数据,为您的研究和分析提供强大的支持。欢迎加入我们的开源社区,共同推动项目的进步和发展!

SEC-EDGAR-text Text information from US companies' SEC EDGAR electronic filings SEC-EDGAR-text 项目地址: https://gitcode.com/gh_mirrors/se/SEC-EDGAR-text

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鲍丁臣Ursa

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值