python爬虫总结: 网页内容需要分类爬取

自学爬虫中...........

有个在一爬虫公司上班的朋友,今天和他聊了一会,给了我一个小项目,在这里给大家分享一下

项目需求:

      在一个政府网站上爬取该市的环境处理公告

  1. 分类爬取 受理, 审批, 批复页面的表格内容以及发布时间

     2.要是用代理ip,24小时不间断爬取

这里出现第一个问题: 怎么把首页中的有用链接分类提取呢, 这是我想到了正则,对 就是 Beautiful的 find_all('a', text=re.compile(r'受理'))

步骤分析:

  1. 拼接基础页面url, 这里的网站的首页和其他页面的url有所不同, 需要单独处理, 也就是加一个if单独判断即可
  2. 使用 Beautiful中find_all('a', text=re.compile(r'受理')) 把3中链接 分类保存到列表中
  3. 分别发送请求
  4. 解析页面
  5. 注意: 在解析页面时遇到了不少坑: 每个页面的html标签不同, 但是好在大体相同,这时只需要把相同的html选择器写出来, 直接text即可
  6. 保存为json格式的文件

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值