- 博客(2)
- 收藏
- 关注
原创 【爬虫】使用Selenium爬取腾讯漫画
目标:以自动下载指定漫画的最新一话为例,或下载某部指定漫画。 思路:因为在漫画页内漫画图片地址是动态加载出来的,因此选用Selenium进行浏览器的模拟操作,处罚js行为进行地址的加载。再获取到图片地址后进行下载。每部漫画的地址都是有一个固定的id,可以直接请求指定漫画的详情页。ROOT_URL = "http://ac.qq.com"TargetUrls = [ ROOT_U...
2018-03-14 11:59:01 8514 5
原创 【爬虫】Python使用requests爬取代理IP并验证可用性
在编写爬虫的过程中为了避免IP地址被Ban掉,可以通过抓取IP代理后,通过代理IP进行对网页的访问。网络上有很多提供免费代理IP的网站,我们可以选择西刺进行代理IP的爬取并存储到csv文件中,并通过多进程来验证爬取IP的可用性。http://www.xicidaili.com/就提供了很多免费的代理IP。通过requests和lxml进行网页的爬取和解析。 在爬取之前我们首先设置请求头,...
2018-03-08 15:12:30 9026
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人