A股上市公司年报爬虫及关键词词频分析(2004-2023年)

随着2023年上市公司年报陆续发布,我们搜集整理了最新上市公司年报,可用于文本分析和词频统计。如果想直接获取年报文本TXT版本或者数字化词频统计结果,可直接联系文末小编。

对于想学习利用python进行年报爬取和词频分析过程的用户,我们推出以下课程,不仅可以学习python爬虫以及数据分析技能,还能对上市公司年报进行个性化词频分析。详情如下:

课程内容:

1、信息获取(包括公司代码,公司简称,年份,年报地址)

预期结果:按照股票代码,公司名称,年份,下载链接等要素写入excel表

你将学习:使用python第三方库requests, re , time等进行年报爬取

新特性:

  • 全新接口,更全面的数据获取
  • 更友好的进度显示
  • 更多可选参数,支持年份区间下载

2、目标信息下载并转换(下载目标区间的年报并转为txt格式)

预期结果:从excel表格中批量下载pdf版本的年报,将其命名为"股票代码_公司简称_ 年份"的格式,并全部转为txt文件。

你将学习:使用python第三方库pandas,requests, re , pdfplumber,time等

多线程批量下载pdf年报并转换为txt文件。

新特性:

  • 可选择是否删除年报PDF原文件
  • 支持自定义命名结果文件夹
  • 提供区间年份的批量处理

3、目标信息数据分析(对目标区间年报进行文本分析)

预期结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值