EDGAR-CRAWLER 开源项目教程

最新推荐文章于 2025-01-08 11:23:51 发布

鲍珍博Quinn

最新推荐文章于 2025-01-08 11:23:51 发布

阅读量578

点赞数 9

本文链接：https://blog.csdn.net/gitblog_00423/article/details/141746350

版权

EDGAR-CRAWLER 是一个开源且优化的工具包，用于从美国证券交易委员会（SEC）的 EDGAR 数据库中检索关键的财务报告信息。与其他标准工具包不同，EDGAR-CRAWLER 不仅能下载 EDGAR 文件，还能将这些冗长且非结构化的文档预处理并转换为干净且易于使用的 JSON 文件。

首先，建议使用 Python 3.8 创建一个新的虚拟环境。推荐使用 Anaconda 进行安装。

conda create -n edgar_crawler_env python=3.8
conda activate edgar_crawler_env

然后，安装项目依赖：

pip install -r requirements.txt

在运行任何脚本之前，应编辑 config.json 文件，该文件配置了两个核心模块的行为。

以下是一个简单的示例，展示如何下载特定年份的财务报告：

from edgar_crawler import EdgarCrawler

crawler = EdgarCrawler(start_year=2020, end_year=2021)
crawler.download_reports()

EDGAR-CRAWLER 可用于金融分析、学术研究以及商业智能等领域。例如，分析师可以使用该工具快速获取并分析特定公司的财务报告，以评估其财务健康状况。

EDGAR-CORPUS 是 EDGAR-CRAWLER 的姊妹项目，它提供了一个大规模的财务文档语料库，可用于自然语言处理和机器学习研究。

EDGAR-W2V 是一个基于 EDGAR-CORPUS 训练的 Word2vec 嵌入模型，可用于金融文本的语义分析和相似度计算。

通过这些生态项目，EDGAR-CRAWLER 不仅是一个数据获取工具，还是一个完整的金融文本分析解决方案。