简单爬虫,四个简单函数爬取图片到本地

导库

在这里插入图片描述
这里前几个都明白,因为最近urlopen改动的原因所以要加上最后一句话来不让urlopen那句话报错
先定义几个函数
在这里插入图片描述
第一个函数,是用来处理url的,这里我选择了带着请求头去访问,这样更友好,嘻嘻
然后就是使用request.Request去对这个url发起请求
在这里插入图片描述
第二个函数,是用urlopen去解析并且读取获得的请求,这里的参数req就是上面那个函数的返回结果了,如果将这句话打印的话,会是得到整个网页的源代码
在这里插入图片描述
第三个函数,解析页面,这里的解析是通过xpath路径来解析整个页面的,对于不会xpath的人来说,可以自己找资源,我也由一篇是用来讲xpath的,但是本人能力有限,多多见谅
那么上图为什么是src2 而不是img的正常的img呢 因为这里本来是src的 但是爬取为空 为什么呢 查看源代码或者
print(request.urlopen(req).read().decode(“gbk”))
之后才发现他做了一个小小的反爬 把img的src改成src2了,所以我们也改过来就好了
在这里插入图片描述
第四个函数,将获取到的图片的url通过urlretrieve下载到本地filename中
在这里插入图片描述
最后,就是将这几个函数结合在一起了
注意:这种简单的爬虫只可以爬简单的小网站,对于大公司的大网站,那都是js动态加载的,一步一个反爬,我劝你们还是放弃吧
点击网页的查看源代码可以发现,如果大部分代码都是js动态加载的话,那么你中奖了,这种动态加载一般都是要抓取json包来爬的 我不会诶 嘻嘻
注意,鼠标右键的查看源代码不等于检查 检查在任何时候都是正常的html5构造,因为这已经是加载完整个页面之后的代码

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值