招标网站信息爬取

目标网站

某采购与招标网
 代码链接code-repo

准备工作

 参考博客[1],使用谷歌浏览器的开发者工具,提取http的表单信息。
在这里插入图片描述
 http post 中的表单信息,需要含有_qt信息。网站使用_qt做反爬虫措施。_qt由服务器返回,在不同的会话中,值是变化的。如果缺少_qt的信息,post的返回状态码是403。
 在会话建立后,当客户端发送http get信息后,返回的页面中含有_qt的信息。主页另存为html,用文本编辑工具打开,可以看到_qt。

$.ajax({
			type : "POST",
			url : url,
			cache : false,
			processData : true,
			data : formData+ /*TZYz*/"&"//"/*"
				///'"'*/
			/*0!caigou8*/+'_'/*JTZY*/+'q'/*ZYzNh5*/+'t'/*zNhFm076*/+'='/**/
				+//"/*"
				//*/
				/*NhFmYiZj5"*/'TNjJTZYzNhFmYi'+/*"*'mYi5*///"
				/*JTZY*/'ZjN3IjYlFTOzgzNlFTZ2ImNxUWNwQ'///*ANjJTZYzNhFJyu*/
			,success : function(responseData) {
				$("#searchResult").html(responseData);
				if ($("#totalRecordNum").val() == 0) {
					var msg="<font color='red' size='3em'>查无结果!</font>";
					$("#searchResult").html(msg);
				} else {
					$("#searchResult").html(responseData);
				}
				
				$('body').loadingmask('close');
			}
		});

 可以看到javascript中添加了一些注释,做了混淆。本项目中提取_qt值的代码,通过字符串"0!caigou8"定位第一行,"success"定位最后一行。

def _parser_qt(text):
    f= io.StringIO(text)
    content=[]
    locate_caigou8=False
    while True:
        line=f.readline()
        if not line:
            break
        else:
            if locate_caigou8 is False and "0!caigou8" in line:
                locate_caigou8=True
            if locate_caigou8:
                if "success" in line:
                    break
                t=line.strip()
                t=_remove_annotation(t)
                if len(t)>0:
                    content.append(t)
    length=len(content)
    qt=_strip_token(content[2],"'+")+_strip_token(content[3],"'+")
    return qt

获取网页索引信息

 http post相关代码。如果想要请求其他省份的数据,请修form_data信息。

def request_page_index(session,cookie,qt,post_headers,page_index,retry=1,info_dir=None):
    success=False
    per_page_size=20
    province='YN'
    #https://zhuanlan.zhihu.com/p/31856224
    province_ch='云南'
    form_data={
        'page.currentPage':str(page_index),
        'page.perPageSize':str(per_page_size),
        'noticeBean.sourceCH':province_ch,
        'noticeBean.source':province,
        'noticeBean.title':'',
        'noticeBean.startDate':'',
        'noticeBean.endDate':'',
        '_qt':qt
    }
    post_headers['cookie']=cookie
    #https://blog.csdn.net/weixin_51111267/article/details/124616848
    post_content=post_emit(session,post_url,post_headers,form_data,retry)
    if post_content is None:
        logging.warn("fail to download notice page {}".format(page_index))
        return success
    success=True
    if info_dir:
        pathname=info_dir+province+"_"+str(page_index)+".txt"
        save_notice_page(pathname,post_content)
    return success

 客户端发送http post消息后,服务器返回招标索引信息。对应的结果在浏览器中的展示如图。
在这里插入图片描述
 save_notice_page提取返回网页中包含的项目名称和id信息。处理获的结果可以在page-index文件夹中看到。

def save_notice_page(pathname,html_content):
    title2id=hp.get_onclick_info(html_content)
    fm.save_title2id(title2id,pathname)

 html_parser.py

def get_onclick_info(html_content):
   soup = BeautifulSoup(html_content, 'lxml')
   tr_all=soup.find_all("tr")
   length=len(tr_all)
   dic={}
   for i in range(length):
   #{'class': [], 'onmousemove': 'cursorOver(this)', 'onmouseout': 'cursorOut(this)', 'onclick': "selectResult('901888')"}
   # type(attrs) is  dict
       if tr_all[i].attrs and 'onclick' in tr_all[i].attrs:
           id=_parser_id(tr_all[i].attrs['onclick'])
           if len(id)>0:
               ahref=tr_all[i].find("a")
               if 'title' in ahref.attrs:
                   dic.update({ahref.attrs['title']:id})
               elif len(ahref.contents)>0:
                   dic.update({ahref.contents[0]:id})
   return dic

请求具体界面

 根据page_index中保存的id信息,构造page_url,并下载网页内容,结构保存在resource文件夹中。

def download_notice_batch(index_list,resource_dir,suffix=".txt"):
   requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS += ':HIGH:!DH:!aNULL'
   for i in range(len(index_list)):
       user_agent=random.choice(ua_list)
       login_headers['User-Agent']=user_agent
       session=requests.session()
       path_name=index_list[i]
       id2title=fm.extrac_id2title(path_name)
       pos2=path_name.rfind('.')
       pos1=path_name.rfind('/')
       name=path_name[pos1+1:pos2]
       new_path=resource_dir+name+'/'
       fm.mkdir(new_path)
       for item in id2title.items():
           id=item[0]
           page_url=url_base+id+""
           dest_name=new_path+id+suffix
           if open_page(session,page_url,login_headers,dest_name) is False:
               logging.warn("download failure {} {}".format(name,dest_name))
       session.close()

批量处理数据

 按照甲方要求,提取数据。如需提取其他信息,请对parser_notice_content函数进行定制。

def process_page_batch(index_list,resource_dir,csv_name,suffix=".txt"):
   csv_f=open(csv_name,"w")
   delimiter='|'
   csv_f.write("index|page_id|title|no_tax|with_tax|duration|company|people|tel|\n")

运行代码:

  github给出的连接中,给出了安装依赖。
1 获取网页索引
 下载第1页到第10页,如果提示失败,请重新运行指令。结果保存在page-index文件夹。

 python index_main.py --range=1:10  

2 下载网页
 根据page-index中的文件内容,下载网页通知。

python page-main.py  

3 信息提取

python get_csv.py  

 结果保存在result.csv文件中。由于提取的信息中很有逗号,result.csv中使用符号|作为分隔符。使用excel打开前,请修改系统默认列表分割符,参考设置windows中的列表分隔符。excel打开csv之后,可以另存为xlsl文件。之后可以把系统默认列表分隔符改回去。

后记

 之前请求网页索引,一直不知道怎么设置qt的值,总是得到403的响应。在这里一直卡了三天。解决qt之后,项目的完成又花了三天时间。

Reference:
[1]爬虫之爬取中国移动采购与招标网
[2]code-repo

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
招标搜索软件使用说明 软件使用类似于百度的蜘蛛引擎,每日爬行全国招标信息、政府采购类网站,从中提取出各类有效的招标数据或政府采购信息,用户下载我们的招标搜索软件,免安装即可搜索使用,就可搜索到全国最新的各类招标中标政府采购等信息,从而为企业解决了在获取各类招投标信息时,渠道单一、只使用某一或几个网站进行搜索、导至错失大量有用信息无法知晓。软件在操作上、我们力求以最简单的操作方式来达到最理想的搜索结果,您只需要选择几个不同的搜索条件,即可让你看到意想不到的信息。 采购招标信息 政府网站(公共资源交易中心,政府采购中心)、大型企业网站、代理机构网站等机构采购招标信息,会员(采购商)自主发布采购招标信息,供用户查询。内容包含投标要求、业主、招标公司联系人、联系方式、及购买标书的时间、地点等,每日更新公开招标信息。 政府采购 各省、市、县政府采购单位发布的询价类、比选、竞争性谈判及单一来源采购类信息。 企业采购 国内各大企业、集团公司所发布的直接采购信息,用户可通过非招标的形式,直接和业主方联系,洽谈供货及长期合作事宜。 会员招标采购 中机采招网广大用户发布的招标信息,包括招标内容、采购单位以及联系人、联系方式。中机采招网可推荐符合采购单位要求的认证企业前去参与。 变更通知 是在发布招标公告后补充公告、变更公告、废标公告、重新招标信息,使用户可以及时获知,并有效的对投标工作做出相应方案调整,以免因此导致投标失误。 标书下载 部分招标项目可向用户提供电子版标书下载服务,标书内容包含项目采购清单、商务文件、技术参数、评标办法、报名表等,省去因盲目购买标书而损失的财力和时间成本。 中标信息 政府网站(公共资源交易中心,政府采购中心)、大型企业网站、代理机构网站等机构中标信息,供用户查询。提供中标单位、中标项目、中标金额,为会员提供直接供货渠道。更有利于会员为中标企业在后期分包工作中,做好提前介入工作。 招标数据查询 中机采招网庞大招标数据信息,可为用户提供历史招标数据,统计、导出、分析提供相关数据支持。 中标数据查询 中机采招网庞大中标数据信息,可为用户提供历史中标数据,内容包含采购单位、中标单位、中标金额等,对用户的数据统计、导出、分析提供相关数据支持。 项目导出 用户可针对中机采招网项目库中所感兴趣的项目,按地区和时间进行分别汇总,并导出保存在本地电脑上进行存档备案。 数据库 (招标) 根据用户需求,以表格形式汇总近一个月内各行业、各领域招标采购数据信息,为用户做数据分析提供支持服务。 数据库 (中标) 根据用户需求,以表格形式汇总近一个月内各行业、各领域中标数据信息,为用户做数据分析提供支持服务。 数据库 (企业) 供包含业主、招标代理机构及相关单位、供应商、政府采购中心等企业数据库在线查询服务。
爬取千里马招标网站数据可以使用Python中的爬虫框架Scrapy。 首先,使用Scrapy创建一个新的爬虫项目: ``` scrapy startproject qianlima ``` 然后,在项目目录下创建一个新的Spider: ``` cd qianlima scrapy genspider qianlima_spider www.qianlima.com ``` 接下来,在Spider中编写爬取代码。首先需要在Spider中定义要爬取的URL: ```python start_urls = ['http://www.qianlima.com/zb/search.html?keywords=医院'] ``` 然后编写解析函数,从页面中提取出需要的数据: ```python def parse(self, response): # 解析页面 for item in response.xpath('//div[@class="list_item"]'): # 提取数据 title = item.xpath('div[@class="list_item_title"]/a/text()').extract_first() link = item.xpath('div[@class="list_item_title"]/a/@href').extract_first() pub_date = item.xpath('div[@class="list_item_time"]/text()').extract_first() # 将数据存储到Item中 yield { 'title': title, 'link': link, 'pub_date': pub_date, } ``` 最后,在settings.py中启用自动限速: ```python AUTOTHROTTLE_ENABLED = True ``` 这样就完成了爬取千里马招标网站数据的操作。完整的代码如下: ```python import scrapy class QianlimaSpider(scrapy.Spider): name = 'qianlima_spider' allowed_domains = ['www.qianlima.com'] start_urls = ['http://www.qianlima.com/zb/search.html?keywords=医院'] def parse(self, response): # 解析页面 for item in response.xpath('//div[@class="list_item"]'): # 提取数据 title = item.xpath('div[@class="list_item_title"]/a/text()').extract_first() link = item.xpath('div[@class="list_item_title"]/a/@href').extract_first() pub_date = item.xpath('div[@class="list_item_time"]/text()').extract_first() # 将数据存储到Item中 yield { 'title': title, 'link': link, 'pub_date': pub_date, } ``` 运行爬虫: ``` scrapy crawl qianlima_spider ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值