爬虫:财政部PPP项目库

# 功能说明:提取财政部PPP相关要素。
# 先从各页提取项目链接,再按链接提取各项目要素,再进入下一页;“采购社会资本方式”从另一个链接提取
# 日期在Excel里是字符串格式,需要转换成日期格式,粘贴到记事本或使用DATEVALUE函数

import datetime,time,random,os
import requests,re
from bs4 import BeautifulSoup
import pandas as pd
starttime = datetime.datetime.now()

startPage="http://www.cpppc.org:8086/pppcentral/map/getPPPList.do" #用于寻找每个项目的PROJ_ID
baseUrl='http://www.cpppc.org:8083/efmisweb/ppp/projectLibrary/getProjInfo.do?projId=' #与PROJ_ID拼接成各个项目的链接
baseUrl2='http://www.cpppc.org:8083/efmisweb/ppp/projectLibrary/getProjInfoNational.do?projId=' #另外一个链接,提取“采购社会资本方式”数据
myParams= {'queryPage': '1','projStateType':'0'} #翻页用,也可以加入其他选项

myHeader={
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7',
'Connection':'keep-alive',
'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'Cookie':'JSESSIONID=7A442574FB143BC29453ECFA1A10CCC2; _site_id_cookie=82; clientlanguage=zh_CN; faspjsessionid=201xEsLqLL6_eaSNWmga7x05Z-tO19aSbqBEJZgBol-6t836nruw!1514000050; JSESSIONID=IF12fM4-OOkAeZCsfI-E3ErRwaXDf9AAuuANnExxdWHvMxHtrAo5!-549990464',
'Host':'www.cpppc.org:8086',
'Origin':'http://www.cpppc.org:8086',
'Referer':'http://www.cpppc.org:8086/pppcentral/map/toPPPList.do',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
'X-Requested-W
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值