EDGAR-Crawler 使用手册

余桢钟

于 2024-08-31 09:52:08 发布

阅读量417

点赞数 2

本文链接：https://blog.csdn.net/gitblog_00693/article/details/141746659

版权

EDGAR-Crawler 使用手册

edgar-crawlerThe only open-source toolkit that can download EDGAR financial reports and extract textual data from specific item sections into nice and clean JSON files.项目地址:https://gitcode.com/gh_mirrors/ed/edgar-crawler

1. 目录结构及介绍

EDGAR-Crawler 的项目结构精心组织，以便于开发者快速理解和扩展。以下是主要的目录和文件说明：

.
├── datasets                    # 可能存放数据集相关的文件或说明
├── images                      # 项目相关图像文件，可能用于文档或示例
├── logs                        # 运行时日志文件夹
├── tests                       # 单元测试和集成测试代码
├── gitignore                   # 忽略特定文件的配置
├── LICENSE                     # 许可证文件，遵循 GPL-3.0 协议
├── README.md                   # 主要的项目介绍和快速指南
├── __init__.py                 # 包初始化文件
├── config.json                 # 配置文件，定义爬虫行为和参数
├── edgar_crawler.py            # 核心脚本，负责下载财务报告
├── extract_items.py            # 提取并处理特定项目文本的脚本
├── logger.py                   # 日志管理模块
└── requirements.txt            # 项目依赖列表，用于pip安装所需库

2. 项目的启动文件介绍

启动文件: edgar_crawler.py

此文件是项目的主入口点，它实现了从SEC的EDGAR数据库中抓取和下载财务报告的核心功能。您可以通过调用此脚本来指定想要下载的公司和年份范围。运行该脚本前，需确保已适当配置config.json文件，并且所有依赖已通过requirements.txt安装。

3. 项目的配置文件介绍

配置文件: config.json

配置文件是操作EDGAR-Crawler的关键。它允许用户定制爬虫的行为，包括但不限于：

start_year: 下载财务报告的起始年份。
其他潜在的配置项可能会涉及目标公司的CIK（Central Index Key）、报告类型（如10-K, 10-Q等）、下载路径、以及任何特定的提取规则等，具体根据项目最新版本而定。

为了自定义爬取过程，您需要编辑此JSON文件以符合您的需求。例如：

{
    "start_year": "XXXX",
    "end_year": "YYYY",
    "company_cik_list": ["XXXXXX", "YYYYYY"], // 示例，按实际情况填充或不填以爬取所有
    ...
}

确保在开始使用之前仔细阅读文档，并根据实际需求调整这些设置。

通过以上步骤，您可以有效地管理和利用EDGAR-Crawler来自动获取和处理复杂的金融报告数据，大大简化了分析大量财务数据的过程。

余桢钟

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
EDGAR-Crawler 使用手册

EDGAR-Crawler 使用手册 edgar-crawlerThe only open-source toolkit that can download EDGAR financial reports and extract textual data from specific item sections into nice and clean JSON files.项目地址:https:/...
复制链接

扫一扫