爬取巨潮资讯制造业公司年报数据

最新推荐文章于 2024-04-11 10:13:19 发布

鼠小米

最新推荐文章于 2024-04-11 10:13:19 发布

阅读量2.2k

点赞数 2

分类专栏：网络爬虫文章标签： python json 数据安全 git

本文链接：https://blog.csdn.net/sinat_39616953/article/details/108555491

版权

网络爬虫专栏收录该内容

8 篇文章 3 订阅

订阅专栏

import requests
import random
import time
import sys
import os


download_path= 'http://www.cninfo.com.cn/new/index'
saving_path= 'E://2019年报sz'

User_Agent= [
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
        "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
        "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
        "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0"
    ]                                #User_Agent的集合



headers= {'Accept': 'application/json, text/javascript, */*; q=0.01',
           "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
            "Accept-Encoding": "gzip, deflate",
           "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-HK;q=0.6,zh-TW;q=0.5",
          'Host': 'www.cninfo.com.cn',
           'Origin': 'http://www.cninfo.com.cn',
           'Referer': 'http://www.cninfo.com.cn/new/commonUrl?url=disclosure/list/notice',
            'X-Requested-With': 'XMLHttpRequest'
          }


def single_page(page):
    query_path= 'http://www.cninfo.com.cn/new/hisAnnouncement/query'
    headers['User-Agent']= random.choice(User_Agent)      #定义User_Agent
    query= {'pageNum': page ,
			'pageSize': 30,
			'column': 'szse',
			'tabName': 'fulltext',
			'plate': 'sz',
			'stock':'' ,
			'searchkey':'' ,
			'secid':'' ,
			'category': 'category_ndbg_szsh',
			'trade': '制造业',
			'seDate': '2020-03-12~2020-09-13',
			'sortName':'' ,
			'sortType': '',
			'isHLtitle': 'true',
            }

    namelist= requests.post(query_path,headers = headers,data = query)
    print(page, '*********','\n',namelist.json()['announcements'])
    return namelist.json()['announcements']        #json中的年度报告信息


def saving(single_page):          #下载年报
	try:
		headers= {'Accept': 'application/json, text/javascript, */*; q=0.01',
				   "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
				   "Accept-Encoding": "gzip, deflate",
				   "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-HK;q=0.6,zh-TW;q=0.5",
				   'Host': 'www.cninfo.com.cn',
				   'Origin': 'http://www.cninfo.com.cn'
				   }

		for i in single_page:
			if i['announcementTitle']== '2019年年度报告（更新后）' or i['announcementTitle']== '2019年年度报告':
				download='http://www.cninfo.com.cn/new/announcement/download?bulletinId=' + i['announcementId']+'&announceTime='+i['adjunctUrl'][10:20]
				name= i["secCode"]+ '_' + i['secName']+ '_' + i['announcementTitle']+ '.pdf'
				if '*' in name:
					name= name.replace('*','')
				file_path= saving_path+ '//' + name
				time.sleep(random.random()* 2)
				headers['User-Agent']= random.choice(User_Agent)
				r= requests.get(download,headers = headers)
				f= open(file_path, "wb")
				f.write(r.content)
				f.close()
				print(name)
			else:
				continue
	except:
		saving(single_page)

def spy_save(page):
	try:
		page_data = single_page(page)
	except:
		print(page,'page error, retrying')
		try:
			page_data= single_page(page)
		except:
			print(page,'page error')
	saving(page_data )



if __name__ == '__main__':
	for i in range(101):
		page_data=spy_save(100)

鼠小米

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
8
评论
爬取巨潮资讯制造业公司年报数据

import requestsimport randomimport timeimport sysimport ossys.path.append('../')download_path= 'http://www.cninfo.com.cn/new/index'saving_path= 'E://2019年报sz'User_Agent= ["Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.
复制链接

扫一扫