简单的爬虫代码基于python

前言

又在b站上看了看视频看到有大神讲解爬虫,心血来潮就自己研究研究。花了很长时间才弄懂原理。本人比较笨,写这个的话希望能给像我们这些小白玩一玩知道一下原理。顺便自己当着笔记。大神不要笑话。

准备工作

一个python3的环境,一个编译器,requests库。
因为requests库是第三方库,我们需要pip下载来。

pip3 install requests

ps:python3环境搭建包括编译器网上很多大神会分享自行百度一下,还有pip3也是需要安装很简单的百度一下,很多很好的大神作业。
然后查看一下我们是否安装好requests库

pip3 list

请添加图片描述

看很简单的

1.开始工作咯

会用到的库
import requests
import re
因为基于一个爬虫网站所以用这么简单的就可以啦分享一下

https://ssr1.scrape.center/
用chrome打开这个网站,并选择第一tab。复制一下头文件信息
请添加图片描述
记录好这两个数据,一会有用

import requests #这个库方便我们下载资源
import re #这个是用来处理html的数据
url = 'https://ssr1.scrape.center/page/1' #这个是要爬的地址
#把刚才复制好的数据填进去
header  = {'Referer':'xxxxxx','User-Agent':'xxxxxxx'}

#写个简单的下载组件
def downlaodWeb(url,header): #这个类需要两对象一个是地址,一个是头文件
    #用response接受requests.get传回来的数据
    response =requests.get(url=url, headers = header)
    #最后把获取到的数据原封不动返回出来
    return response

#我们需要下载网页代码看看我们的图片地址包括名字信息在哪里
#这里的url对应一开始设置的变量,html接受返回的数据,(.text)是requests一个方法
html = downlaodWeb(url, None).text 
#获取图片的地址,获取src=这个图片的地址
picUrl = re.findall(r'src="(.*?)"', html)
#发现里面有一个logo的图片,这个不需要我们去取它
picUrl.pop(0)
#获取图片对应的名字,方便我们命名
picName = re.findall(r'<h2 data-v-7f856186="" class="m-b-sm">(.*?)</h2>', html)

#用for循环去下载图片
#次数由picUrl数量来决定
for i in range(len(picUrl)):
    #由pic接收下载好的数据,picUrl[i]就是选择下载第几个地址,header是上方的变量
    #content意思是下载它的二进制格式
    pic = downlaodWeb(picUrl[i], header).content
    #’wb‘用二进制方式写回图片
    with open(picName[i]+'.jpg', 'wb') as f:
        f.write(pic)

如果顺利你会得到十张图片
请添加图片描述

  • 10
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值