SEC-EDGAR-text 项目使用教程

SEC-EDGAR-text 项目使用教程

SEC-EDGAR-text Text information from US companies' SEC EDGAR electronic filings SEC-EDGAR-text 项目地址: https://gitcode.com/gh_mirrors/se/SEC-EDGAR-text

1. 项目的目录结构及介绍

SEC-EDGAR-text/
├── README.md
├── requirements.txt
├── companies_list.txt
├── utils.py
├── main.py
├── config.ini
└── data/
    ├── text_excerpts/
    └── metadata/
  • README.md: 项目的基本介绍和使用说明。
  • requirements.txt: 项目依赖的Python包列表。
  • companies_list.txt: 包含需要下载SEC EDGAR文件的公司列表。
  • utils.py: 包含一些辅助函数和命令行选项。
  • main.py: 项目的启动文件,负责下载和处理SEC EDGAR文件。
  • config.ini: 项目的配置文件,包含各种设置选项。
  • data/: 存储下载的文本摘录和元数据文件的目录。

2. 项目的启动文件介绍

main.py

main.py 是项目的启动文件,负责执行以下主要功能:

  • 读取配置文件 config.ini 中的设置。
  • 根据 companies_list.txt 中的公司列表下载SEC EDGAR文件。
  • 使用多进程处理下载任务(如果配置中启用了多进程)。
  • 将下载的文本摘录和元数据存储在 data/ 目录中。

启动项目的基本命令如下:

python main.py

3. 项目的配置文件介绍

config.ini

config.ini 是项目的配置文件,包含以下主要配置项:

[DEFAULT]
storage_location = /path/to/my_storage_location
start_date = 20150101
end_date = 99991231
filings = 10-K
multiprocessing_cores = 0
traffic_limit_pause_ms = 500
  • storage_location: 指定存储下载文件的路径。
  • start_date: 下载文件的起始日期。
  • end_date: 下载文件的结束日期。
  • filings: 指定需要下载的文件类型,如 10-K
  • multiprocessing_cores: 指定多进程处理的CPU核心数,0 表示不使用多进程。
  • traffic_limit_pause_ms: 下载请求之间的暂停时间,以避免触发流量限制。

通过修改 config.ini 文件,可以自定义项目的运行参数。

SEC-EDGAR-text Text information from US companies' SEC EDGAR electronic filings SEC-EDGAR-text 项目地址: https://gitcode.com/gh_mirrors/se/SEC-EDGAR-text

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

高崴功Victorious

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值