python爬虫总结: 网页内容需要分类爬取

lookingTarget

于 2018-11-08 20:10:16 发布

阅读量1.4k

点赞数 1

分类专栏：技术文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cui_Never_Stop/article/details/83867134

版权

技术专栏收录该内容

3 篇文章

订阅专栏

自学爬虫中...........

有个在一爬虫公司上班的朋友,今天和他聊了一会,给了我一个小项目,在这里给大家分享一下

项目需求:

在一个政府网站上爬取该市的环境处理公告

分类爬取受理, 审批, 批复页面的表格内容以及发布时间

2.要是用代理ip,24小时不间断爬取

这里出现第一个问题: 怎么把首页中的有用链接分类提取呢, 这是我想到了正则,对就是 Beautiful的 find_all('a', text=re.compile(r'受理'))

步骤分析:

拼接基础页面url, 这里的网站的首页和其他页面的url有所不同, 需要单独处理, 也就是加一个if单独判断即可
使用 Beautiful中find_all('a', text=re.compile(r'受理')) 把3中链接分类保存到列表中
分别发送请求
解析页面
注意: 在解析页面时遇到了不少坑: 每个页面的html标签不同, 但是好在大体相同,这时只需要把相同的html选择器写出来, 直接text即可
保存为json格式的文件

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。