第一步:创建所需要爬取的企业代码——国泰安即可获取。
第二步:爬取企业年报——代码如下
代码:
# 1、定义股票代码列表 和 爬取结果输出地址(最好指定一个空的文件夹)———必选项
Codelist_path = r"D:\教学视频\企业代码.xls"
Output_path = r"D:\教学视频\年报"
# 2、定义要爬取的报表类型(若同时爬取多项中间用;连接)———必选项
# 公司年度报告:category_ndbg_szsh
# 公司治理报告:category_gszl_szsh
Category_All = "category_ndbg_szsh;category_sjdbg_szsh;category_dshgg_szsh;category_rcjy_szsh;category_sf_szsh;category_pg_szsh;category_kzzq_szsh;category_bcgz_szsh;category_tbclts_szsh;category_tszlq_szsh;category_cqdq_szsh;category_qtrz_szsh;category_jj_szsh;category_zf_szsh;category_gszl_szsh;category_jshgg_szsh;category_yjygjxz_szsh;category_bndbg_szsh;category_yjdbg_szsh;category_qyfpxzcs_szsh;category_gddh_szsh;category_zj_szsh;category_gqjl_szsh;category_gszq_szsh;category_gqbd_szsh;category_fxts_szsh;"
# Category_A = Category_All
# Category_A = "category_ndbg_szsh;"
Category_A = "category_ndbg_szsh"
# 3、定义要爬取的时间段———必选项
SeDate_A = '2015-01-01~2017-01-01'
# 4、定义爬取指定报告的关键词(若不指定则保持为空即可)———可选项
Search_key = ''
import requests
# 用于获取网页内容
from urllib.request import urlretrieve
# 用于下载网络文件到本地
import re
# 用于正则匹配
import math
# 用于调用数学函数
import json
# 用于解析json
import xlwt
# 用于写入excel
import xlrd
# 用于读取excel
import os
# 用于实现系统功能
import pandas as pd
# 导入pandas工具库