![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
欧阳dada
这个作者很懒,什么都没留下…
展开
-
python爬虫时爬虫爬数据时出现“访问本页面,请开启JavaScript并刷新该页”
在此之前,爬取其他网站到没有遇到过这种问题,这种类似国家网站,竟然设置了反爬虫,解决办法:使用headers里面添加cookie访问。注意:Cookie的值过一段时间会发生变化,要重新获取。原创 2020-09-21 21:41:37 · 6599 阅读 · 1 评论 -
爬虫实例分析——壁纸网
本次实例为本人独自完成首先,我选定了某壁纸网,至于为啥,还不是因为高清无码,这不香嘛?1、接口寻找此步骤是我从之前就强调过的,非常非常非常重要的!步骤。(主要还是我找到了,找不到我也就不会发出来了)...原创 2020-06-30 22:36:52 · 846 阅读 · 0 评论 -
关于爬虫爬取图片时,url地址中有转义字符/的处理方法。
从昨晚开始我就开始在爬取某个壁纸网站,一直到刚才才成功了。代码写的很快。但是,到了解析代码时遇到了问题。首先就是解析出源码中的url,这里我有点犯懵,好不容易得到了url,却发现了这个。。。。(经验不够,花的时间太多)这里是的问题就是url中出现了转义。当时没注意源码中的url,运行后就出现了这样的错误。当时还不知道这个问题所在,只知道url出来问题,一查,知道了,其中的转义不能被执行访问,有趣的是我用那个url在浏览器中是可以访问的。至于原因,大概就是浏览器可以解析吧。。。今天早上在查找资料和思原创 2020-06-20 10:41:19 · 1524 阅读 · 0 评论 -
urllib的异常
urllib的异常包括:URLError和HTTPError。1、简介HTTPError类是URLError类的子类HTTPError的异常包括:1、返回状态码404表示路径错误,页面未找到2、500表示服务器内部错误这里只能展示下404的错误了而URLError异常,我是访问了个应该不存在的网站,出现了URLError异常,按照我的理解就是,找不到该网页之类的。2、解决urllib的异常那么怎么解决异常?为了使代码更加的健壮,可以通过try-except进行捕获异常。try-ex原创 2020-06-18 17:55:14 · 310 阅读 · 0 评论 -
Python爬虫之urllib库的使用
首先urllib库是爬虫中用到的比较多的一个库,也算是比较基础的一个库,对于入门来说,urllib是蛮重要的。后面会介绍一下requests的使用。1、urllib的介绍按我的理解来说,要想爬取到网页中想要的东西,首先必须要爬取到网页的源码。只有爬取到了网站的源码,才能进行下一步的操作——对源码进行解析。解析完之后,才可以得到爬取到的数据。而urllib对于初学者来说,爬取一般网页的源码来说是比较容易的。为什么说是一般?因为对于初学者来说,找到网页的接口是比较难的,特别是一般大型网站的接口特别难找。下原创 2020-06-16 21:09:21 · 781 阅读 · 1 评论 -
爬虫中urllib库的实例分析
上次说的是urllib库的基本使用,这次是对一些实例进行展示和一定的分析。1、ajax的get请求实例一:db电影页面的爬取首先,需要来找接口,这也是最重要的一步!从上图可以看出,我们在ajax接口中发现了页面的接口,能够看到页面的相关信息,这就是我们需要的接口。我通过自己的爬取,发现了问题,主要也是自己学习的原因,这里的参数并没有想象的那么简单。从图中可以发现,这里对页面进行滑动后,它又刷新出了新的页面。可以看到其中的start是在改变的,此时我知道了,这个页面的滑动相当于点击下一页,所以这原创 2020-06-17 20:51:06 · 208 阅读 · 0 评论