提前声明一下,我写这个代码只是为了个人方便,读者切勿用作非法或者商业用途使用。
目标:
首先我们本次爬虫的任务是完成某采购网站的信息爬取,省去人工耗费的时间。快速筛选出我们的需要的指定信息。然后将招标信息的标题、链接、和时间找出来,并保存到Excel。
工具:
python3
chrom浏览器及dirver驱动
mysql
pyquery、selenium、等库的了解
思路:
当我们完成上述的准备工作之后就是研究目标网站的结构了。通过简单的点击查看等操作,我们发现这个网站是一个动态网站,对应的内容都是javascript来动态加载的,普通的requests肯定不能获取到随时变化的内容了。所以我们选择selenium工具来模仿人的点击操作,获取网页源码,然后
提取出对应的信息了。
话不多说,直接看代码:
# -*- coding: utf-8 -*-# @Time : 2020-11-08 15:50# @Author : Administratorimport xlwt, refrom time