Douban评论爬取----python re模块和request模块使用
学习笔记整合一下静态爬虫的整体的思路先获取URL对应网址的html的内容;再获取对应的内容(在这里我使用的是re模块进行解析);将对应的数据进行保存# 首先说明一下坑,由于没有使用IP代理池,第一次爬取的时候被封了IP1、首先是得到网页的html内容,因此在这里,直接使用的 request.get(url, headers,timeout)因此在这里编写代码的时候,需要给出一个base_url:就...
原创
2018-06-01 22:35:37 ·
1025 阅读 ·
0 评论