随着2023年上市公司年报陆续发布,我们搜集整理了最新上市公司年报,可用于文本分析和词频统计。如果想直接获取年报文本TXT版本或者数字化词频统计结果,可直接联系文末小编。
对于想学习利用python进行年报爬取和词频分析过程的用户,我们推出以下课程,不仅可以学习python爬虫以及数据分析技能,还能对上市公司年报进行个性化词频分析。详情如下:
课程内容:
1、信息获取(包括公司代码,公司简称,年份,年报地址)
预期结果:按照股票代码,公司名称,年份,下载链接等要素写入excel表
你将学习:使用python第三方库requests, re , time等进行年报爬取
新特性:
- 全新接口,更全面的数据获取
- 更友好的进度显示
- 更多可选参数,支持年份区间下载
2、目标信息下载并转换(下载目标区间的年报并转为txt格式)
预期结果:从excel表格中批量下载pdf版本的年报,将其命名为"股票代码_公司简称_ 年份"的格式,并全部转为txt文件。
你将学习:使用python第三方库pandas,requests, re , pdfplumber,time等
多线程批量下载pdf年报并转换为txt文件。
新特性:
- 可选择是否删除年报PDF原文件
- 支持自定义命名结果文件夹
- 提供区间年份的批量处理
3、目标信息数据分析(对目标区间年报进行文本分析)
预期结果: