简单爬虫，四个简单函数爬取图片到本地

最新推荐文章于 2024-06-17 11:32:50 发布

斯噶尔说它想你了

最新推荐文章于 2024-06-17 11:32:50 发布

阅读量783

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/ssssSFN/article/details/85948984

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

导库

在这里插入图片描述
这里前几个都明白，因为最近urlopen改动的原因所以要加上最后一句话来不让urlopen那句话报错
先定义几个函数

第一个函数，是用来处理url的，这里我选择了带着请求头去访问，这样更友好，嘻嘻
然后就是使用request.Request去对这个url发起请求
在这里插入图片描述
第二个函数，是用urlopen去解析并且读取获得的请求，这里的参数req就是上面那个函数的返回结果了，如果将这句话打印的话，会是得到整个网页的源代码

第三个函数，解析页面，这里的解析是通过xpath路径来解析整个页面的，对于不会xpath的人来说，可以自己找资源，我也由一篇是用来讲xpath的，但是本人能力有限，多多见谅
那么上图为什么是src2 而不是img的正常的img呢因为这里本来是src的但是爬取为空为什么呢查看源代码或者
print(request.urlopen(req).read().decode(“gbk”))
之后才发现他做了一个小小的反爬把img的src改成src2了，所以我们也改过来就好了
在这里插入图片描述
第四个函数，将获取到的图片的url通过urlretrieve下载到本地filename中

最后，就是将这几个函数结合在一起了
注意：这种简单的爬虫只可以爬简单的小网站，对于大公司的大网站，那都是js动态加载的，一步一个反爬，我劝你们还是放弃吧
点击网页的查看源代码可以发现，如果大部分代码都是js动态加载的话，那么你中奖了，这种动态加载一般都是要抓取json包来爬的我不会诶嘻嘻
注意，鼠标右键的查看源代码不等于检查检查在任何时候都是正常的html5构造，因为这已经是加载完整个页面之后的代码

斯噶尔说它想你了

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
简单爬虫，四个简单函数爬取图片到本地

导库这里前几个都明白，因为最近urlopen改动的原因所以要加上最后一句话来不让urlopen那句话报错先定义几个函数第一个函数，是用来处理url的，这里我选择了带着请求头去访问，这样更友好，嘻嘻然后就是使用request.Request去对这个url发起请求第二个函数，是用urlopen去解析并且读取获得的请求，这里的参数req就是上面那个函数的返回结果了，如果将这句话打印的话，...
复制链接

扫一扫

专栏目录