中国上市公司年报文本+爬虫代码（2000-2023年）

经管数据库

已于 2025-01-06 14:54:42 修改

阅读量2.1k

点赞数 7

文章标签：爬虫

于 2024-11-17 16:38:43 首次发布

本文链接：https://blog.csdn.net/paperdata666/article/details/143834451

版权

更新！2000-2023中国上市公司年报文本（爬虫代码+txt年报文本）

处理软件：Python 3.11

年度区间：2000-2023

年报数量：59160（其中包含2023年年报txt文件5185个）

说明：本数据为2000-2023中国上市公司年报文本，已经从pdf转为txt格式，方便以本数据为起点进行文本分析及相关指标的构建。本数据特点如下：

（1）爬虫代码：提供详细的Python爬虫代码，方便大家学习掌握爬虫技术；

（2）文件格式：下载的pdf文件已经转化为txt格式，方便后续文本分析处理；

（3）文件过滤：pdf批量下载过程中存在年报更新的情况，已经对年报进行了筛选，剔除了非年报文件并保留了最新更新或更正的年报；

（4）文件名称：原始地址的文件名称并不统一，已经将年报文件名称进行了统一，统一格式为“股票代码_年度_发布日期_****年年度报告.txt”，例如，“000002_2023_20230331_2022年年度报告.txt”;

文件展示：

代码展示：

【下载→

方式一（推荐）：主页个人简介
经管数据库-CSDN博客

方式二：数据下载地址汇总-CSDN博客

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

经管数据库

关注关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

A股上市公司年报爬虫及关键词词频分析（2004-2023年）

xiaozhuzhu1995的博客

11-21

2489

本课程从变量设计的技术实现上来看，通过Python爬虫功能归集整理了上海交易所、深圳交易所全部A股上市企业的年度报告，并通过Java PDFbox库提取所有文本内容，并以此作为数据池供后续的特征词筛选。对于想学习利用python进行年报爬取和词频分析过程的用户，我们推出以下课程，不仅可以学习python爬虫以及数据分析技能，还能对上市公司年报进行个性化词频分析。预期结果：从excel表格中批量下载pdf版本的年报，将其命名为"股票代码_公司简称_ 年份"的格式，并全部转为txt文件。

上市公司年报数字化词频统计Python代码&数据2010-2023

qq_52891550的博客

04-14

2733

数字化转型是以数字化技术为核心,从操作、管理、服务等多个角度,对不同领域进行全方位的数据分析、优化和应用。从年报MD&A提取领域词频进行分析已经是近两年的热点话题，本文以2010-2023年年报为例，进行数字化词频统计，完整数据代码@“经管有数”。

参与评论您还未登录，请先登录后发表或查看评论

文本分析 | 管理层讨论信息含量原理与代码实现

weixin_47172744的博客

04-28

4229

前言受读者建议，再次详细论述我们写的第一篇推文，讲讲管理层讨论信息含量这个指标如何构建。本文的主要内容分为管理层讨论信息含量的定义、计算原理、python和stata实现以及计量拓展定义参考孟庆斌等（中国工业经济，2017）的定义一方面，所有上市公司都处于相同的宏观经济环境、风险因素和政治、政策背景之下；另一方面，同一行业中的各上市公司又面临着相似的产业政策、竞争环境和市场特征。由此可见，每个上市公司MD&A 信息不可避免地在某种程度上与同行业其他上市公司以及市场其他行业上市公司存在一定的

【Python爬虫实战】1.爬取A股上市公司年报链接并存入Excel

凌小添的博客

04-04

1万+

如何用100行代码实现对上市公司年报链接的爬取，简单上手，附源码。

【工作提效】教你如何用Python轻松爬取上市公司年报，新手也能快速上手！copy即用

qq_19288625的博客

07-09

7764

利用python抓取上市公司年报，季度报告，问询函等信息，无需代码基础也可以上手即用

python爬虫 - 爬取 json 格式数据（巨潮网，公司年报）

BullKing8185的博客

04-25

3905

python爬虫五部曲：第一步：安装requests库第二步：获取爬虫所需的header和cookie 第三步：获取网页第四步：解析网页第五步：分析得到的Json数据

第一次Python爬虫练习，爬取上交所的年报问询函

weixin_42599865的博客

03-05

2082

接下来就是获取该Json文件，同时切换不同的页，发现不同页的Json请求网址，只有Page差异，其他地方相同。通过Chrome开发者工具，访问目标网站，点击不同的JS文件，发现标题及下载链接，存储在一个Json文件下。第一次爬虫，会遇到很多报错，不停的调试，去搜寻其他人分享的解决办法，最终顺利实现第一次爬虫。顺利成功爬取问询函。

Python爬虫实战：从抓取年报并分析数据开始

最新发布

2401_85428892的博客

01-15

1837

幸运的是，Python及其强大的爬虫技术可以让我们自动化这一过程，高效地获取并分析这些宝贵信息。获取到一个公司所公布的年报后，接着学习如何获取所有上市公司的年报。在这之前我们需要先观察不同公司年报网页规律，我们发现不同公司年报网页在于股票代码的不同，更换股票代码就可以找到相应的年报网页。相信通过以上步骤，你不仅能够自动化获取年报，还能进行分析其中的数据，为投资决策提供有力支持。因为所有的上市公司太多，数据处理起来比较缓慢，因而这里我们随机选取10家公司获取其年报信息并进行处理。

【更新至2022】2000-2022中国上市公司年报文本（爬虫代码+txt年报文本）

04-08

【更新至2022】2000-2022中国上市公司年报文本（爬虫代码+txt 年报文本）更新时间：2023年5月3日（五一假期2022年报txt新鲜出炉）处理软件：Python 3.10 年度区间：2000-2022 年报数量：536 05（其中包含2022年...

【更新至2022】上市公司年报文本分析与数字经济词频统计（全套代码+数据）

04-09

【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计（全套代码+数据）更新时间：2023年5月5日处理软件：Python 3.1 0 年度区间：2001-2022变量个数：64（详见样本数据——免费下载查阅）年报数量...

上市公司数字经济词频统计，采用python爬虫以及文本分析得出，数据准确可靠

05-02

上市公司数字经济词频统计，采用python爬虫以及文本分析得出，数据准确可靠。包括不限于：数字金融自然语言处理移动支付智慧农业数字营销金融科技智能营销数字货币物联网机器学习征信人工智能联盟链智能投顾开放银行电子商务云计算智能客服人脸识别云计算互联网金融数字货币物联网人工智能移动互联机器学习人工智能云计算物联网工业互联网移动互联网网联电子商务云计算深度学习智能机器人工业互联网虚拟现实智能机器人电子商务物联网人工智能云计算电子商务智能家居移动互联网移动互联 B2B 人工智能 B2C 电子商务物联网数据挖掘商业智能智慧农业物联网人工智能 B2C 电子商务云计算智能机器人移动互联网物联网云计算工业互联网电子商务工业互联网电子商务智能电网 B2B B2C O2O 电子商务网联物联网人工智能电子商务物联网人工智能电子商务云计算智能交通自动驾驶商业智能数据挖掘智慧农业数字营销物联网机器学习人工智能电子商务云计算混合现实工业互联网云

上市公司年报文本PDF+TXT格式（1999-2023年）

paperdata666的博客

11-08

1296

Muslu et al. ，2015）以及结合机器学习模型等角度分析了年度报告的文本有用性。部分研究也发现，年报文本信息提供了有关公司竞争压力程度（Feng et al.，2013），识别财务造假（Lynnette et al.，2015），盈余和未来现金流（Frankel et al.，2016；Ball et al.，2016），财务约束程度（Matthias et al.，2018），信用风险（Donovan et al.，2021）以及投资机会（Basu et al.，2021）方面的增量信息。

三小时爬取四万份年报

a17695740817的博客

11-13

5687

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

年报数据爬虫

白纸

03-17

2338

上市企业年报爬虫：我的毕业论文要爬取 200 家军民融合上市企业连续 5 年的年报数据，需要收集企业名称和爬取年报数据，下面的爬虫代码是借鉴网友的，我稍微按照我的需要改动了一下就可以下载年报数据了，并且做了故障判断，下载过程不会中途停止，希望可以帮到急需数据的朋友。主要思路：自己在网站收集企业名称合成一个 excel 表如图，我的 name.excel python 读取 name.ex...

python 爬虫爬取所有上市公司公告信息（一）

热门推荐

a980135330的博客

10-05

1万+

。，。前面我们已经了解了python中多线程，selenium，requests等爬虫基本操作的知识，现在我们准备编写一个规模较大的爬虫，目的是爬取所有上市公司2015年至今的公告信息。相较于前面几个简单的爬虫功能代码，公告信息爬虫需要考虑更多的问题，现在可以预见到的问题有 1. 爬取公告信息网址的选择在开始爬取之前我们必须选择一个合适的数据源，如果能找到一个好的数据源会极大的提高爬取的

Python爬取深交所发布的上市公司年度报告

qq_34472145的博客

02-08

1万+

一、简介最近在证券交易所通过筛选行业、板块、公告类别后，浏览报告上市公司年度报告时发现条数非常多，足足10652条（10652个PDF文件），因此打算直接爬取所有的PDF名称、文件并批量下载下来，以便进一步阅览，实现效果如下：二、实现步骤 1.分析网页，获取下载地址在分析网页源码时，发现div里table的内容是通过js动态加载的，不能直接爬取网页，如下：通过filter抓包后可看到...

爬虫|巨潮资讯网上市公司年报爬取

Jianming__Liu的博客

01-18

8234

爬虫|巨潮资讯网上市公司年报爬取 import pandas as pd from selenium import webdriver from selenium.webdriver.common.keys import Keys import time import requests import os import random from PyPDF2 import PdfFileReader chrome_options = webdriver.ChromeOptions() chrome_opti

python爬取上市公司年报信息_爬取巨潮资讯制造业公司年报数据

weixin_34571341的博客

12-23

3264

import requestsimport randomimport timeimport sysimport osdownload_path= 'http://www.cninfo.com.cn/new/index'saving_path= 'E://2019年报sz'User_Agent= ["Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1;...

上市公司年报爬取（其他公告同理）---仅供学习使用

rose__love1314的博客

05-10

2327

声明：本程序不存在任何恶意攻击意图，仅供学习练习使用感谢巨潮资讯提供的信息：http://www.cninfo.com.cn/ 教程开始 1.环境使用 pip安装 request 1.0.117 模块 os、json、time模块均为python自带环境 Python 3.8.12 2.代码 import os import requests import json import time print("年报爬取，股票代码，开始时间、结束时间\n退出程序在输入股票代码处

请写一段代码，从某个网站爬取上市公司2006-2023年的年报文件，并将doc和PDF格式转换为txt格式，统计关键词词频总数，写入excel表里，其中，第一列为企业股票代码，第二列为年份，从2006年到2023年，行为每种词的词频

11-28

首先，这个任务涉及到几个步骤：网络爬虫获取数据、文件转换、文本处理以及数据分析。由于这是一个复杂的请求，我会给出一个Python示例，利用BeautifulSoup库抓取网页，`pdfplumber`库转换PDF，`tabula-py`读取Excel，`python-docx`处理Word文档，`nltk`做关键词提取和计数，最后使用pandas存储结果。请注意，实际操作可能需要合法的API接口或者权限，这里仅作为演示： ```python import requests from bs4 import BeautifulSoup import pdfplumber import tabula from docx import Document import nltk from collections import Counter import pandas as pd # 网页抓取部分 def get_annual_report(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 这里假设年报链接都在soup里的某个class里，具体修改为实际页面结构 report_links = [link.get('href') for link in soup.find_all(class_='annual-report-link')] return report_links # 文件转换部分 def convert_to_txt(file_path, output_file): if file_path.endswith('.pdf'): with pdfplumber.open(file_path) as pdf: text = '\n'.join(pdf.pages.extract_text()) elif file_path.endswith(('.doc', '.docx')): doc = Document(file_path) text = '\n'.join([para.text for para in doc.paragraphs]) else: raise ValueError(f"Unsupported file format {file_path}") with open(output_file, 'w', encoding='utf-8') as f: f.write(text) # 数据分析部分 def extract_keywords_from_txt(txt_file, keyword_list): text = open(txt_file, 'r').read() word_freq = Counter(nltk.word_tokenize(text)) return word_freq # 示例URL和文件路径 url_example = "https://example.com/annual-reports" years = range(2006, 2024) stock_codes = ['SH600001'] # 某企业股票代码替换为实际值 output_excel = 'output.xlsx' # 主程序 reports = [] for code in stock_codes: for year in years: report_url = f"https://example.com/{code}-report-{year}" annual_report_links = get_annual_report(report_url) for link in annual_report_links: if 'doc' in link or 'pdf' in link: txt_file = 'temp.txt' convert_to_txt(link, txt_file) report_data = extract_keywords_from_txt(txt_file, keyword_list=['keyword1', 'keyword2']) # 根据需求替换关键词 reports.append((code, year, report_data)) df = pd.DataFrame(reports, columns=['股票代码', '年份', '关键词词频']) df.to_excel(output_excel, index=False) ``` **