SEC-EDGAR-text 项目使用教程
1. 项目的目录结构及介绍
SEC-EDGAR-text/
├── README.md
├── requirements.txt
├── companies_list.txt
├── utils.py
├── main.py
├── config.ini
└── data/
├── text_excerpts/
└── metadata/
- README.md: 项目的基本介绍和使用说明。
- requirements.txt: 项目依赖的Python包列表。
- companies_list.txt: 包含需要下载SEC EDGAR文件的公司列表。
- utils.py: 包含一些辅助函数和命令行选项。
- main.py: 项目的启动文件,负责下载和处理SEC EDGAR文件。
- config.ini: 项目的配置文件,包含各种设置选项。
- data/: 存储下载的文本摘录和元数据文件的目录。
2. 项目的启动文件介绍
main.py
main.py
是项目的启动文件,负责执行以下主要功能:
- 读取配置文件
config.ini
中的设置。 - 根据
companies_list.txt
中的公司列表下载SEC EDGAR文件。 - 使用多进程处理下载任务(如果配置中启用了多进程)。
- 将下载的文本摘录和元数据存储在
data/
目录中。
启动项目的基本命令如下:
python main.py
3. 项目的配置文件介绍
config.ini
config.ini
是项目的配置文件,包含以下主要配置项:
[DEFAULT]
storage_location = /path/to/my_storage_location
start_date = 20150101
end_date = 99991231
filings = 10-K
multiprocessing_cores = 0
traffic_limit_pause_ms = 500
- storage_location: 指定存储下载文件的路径。
- start_date: 下载文件的起始日期。
- end_date: 下载文件的结束日期。
- filings: 指定需要下载的文件类型,如
10-K
。 - multiprocessing_cores: 指定多进程处理的CPU核心数,
0
表示不使用多进程。 - traffic_limit_pause_ms: 下载请求之间的暂停时间,以避免触发流量限制。
通过修改 config.ini
文件,可以自定义项目的运行参数。