python爬虫(一)---之 爬取巨潮资讯网上市公司的年报

第一步:创建所需要爬取的企业代码——国泰安即可获取。

第二步:爬取企业年报——代码如下

代码:
# 1、定义股票代码列表 和 爬取结果输出地址(最好指定一个空的文件夹)———必选项

Codelist_path = r"D:\教学视频\企业代码.xls"

Output_path = r"D:\教学视频\年报"

# 2、定义要爬取的报表类型(若同时爬取多项中间用;连接)———必选项

# 公司年度报告:category_ndbg_szsh

# 公司治理报告:category_gszl_szsh

Category_All = "category_ndbg_szsh;category_sjdbg_szsh;category_dshgg_szsh;category_rcjy_szsh;category_sf_szsh;category_pg_szsh;category_kzzq_szsh;category_bcgz_szsh;category_tbclts_szsh;category_tszlq_szsh;category_cqdq_szsh;category_qtrz_szsh;category_jj_szsh;category_zf_szsh;category_gszl_szsh;category_jshgg_szsh;category_yjygjxz_szsh;category_bndbg_szsh;category_yjdbg_szsh;category_qyfpxzcs_szsh;category_gddh_szsh;category_zj_szsh;category_gqjl_szsh;category_gszq_szsh;category_gqbd_szsh;category_fxts_szsh;"

# Category_A = Category_All

# Category_A = "category_ndbg_szsh;"

Category_A = "category_ndbg_szsh"

# 3、定义要爬取的时间段———必选项

SeDate_A = '2015-01-01~2017-01-01'

# 4、定义爬取指定报告的关键词(若不指定则保持为空即可)———可选项

Search_key = ''

import requests

# 用于获取网页内容

from urllib.request import urlretrieve

# 用于下载网络文件到本地

import re

# 用于正则匹配

import math

# 用于调用数学函数

import json

# 用于解析json

import xlwt

# 用于写入excel

import xlrd

# 用于读取excel

import os

# 用于实现系统功能

import pandas as pd

# 导入pandas工具库

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值