python爬虫小白入门

一、前言

为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。网络上的模块、库、包指的都是同一种东西,所以后文中可能会在不同地方使用不同称谓,不要迷惑哦。

结合一个实例来讲解吧。我的一个设计师小伙伴常去一些设计类网站收集素材,其中有个网站Unsplash里面美图特别多,所以想要把里面的图片都保存下来,这样咱们的小爬虫就登场了。说干就干,赶紧开始吧。

先来准备环境

二、运行环境


  • 系统版本
    我使用的是Windows10。
    好多小伙伴使用的是Mac,配置上基本相同。由于我多年混迹于微软的开发平台,经常使用Visual Studio、SQL Server啥的,用Windows用习惯了(其实主要是因为Qiong穷!)。所以这个教程我就以Windows系统为例了。

三、requests 库的安装


使用Anaconda 版本的得小伙伴儿:用管理员权限运行cmd命令窗口,然后输入
conda install requests

看动图:

直接使用Python3.5的小伙伴儿输入这个命令:
pip install requests

如果你机器上存在多个Python版本,要给Python3.5的版本安装requests库,需要输入以下命令:
py -3 -m pip install requests

好啦,requests库安装完毕,接下来我们会在实际例子中演示它的使用。想要深入了解requests模块的小伙伴也可以仔细阅读英文官方文档,和中文官方文档,如果用到该文没有提到的功能,则查看文档即可。

四、开工


首先我们打开PyCharm,需要选择一下它的页面主题。选择你喜欢的风格,以及选择使用的Python版本。然后打开一个你想要存放爬虫的目录,进入后长这样。

我们再创建一个python文件,输入第一行代码来导入requests库:
import requests #导入requests库

然后用它来获取咱们的目标网页:

r = requests.get('https://unsplash.com') #像目标url地址发送get请求,返回一个response对象
print(r.text) #r.text是http response的网页HTML

在菜单栏点击“Run”,选择该文件(或者直接在窗口中点击右键,运行该文件):

执行完之后,底部会出现输出结果:

可以看到底部是获取到的网页内容。这就完成了爬虫的第一步,获取到了网页的HTML内容。
怎么样,很简单吧。

这只是用到了requests库的get请求,还有其他的请求使用也与之类似。下面我们简单介绍一下每个请求的用法。

五、requests库的使用


因为有中文的官方文档,我就不介绍所有的功能了,只把常用到的说一下,大家用到更多功能的时候再去翻官方文档吧。

requests 库就是用来发送各种请求的,所以,我们就来看看各种请求怎么使用:

5.1 get 请求

r = requests.get("https://unsplash.com")
这就是我们刚刚用到的。其实就是向网站发送了一个get请求,然后网站会返回一个response。r 就是response。大家可以在运行的时候查看r的type。
print(type(r))

get请求还可以传递参数:

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)

上面代码向服务器发送的请求中包含了两个参数key1和key2,以及两个参数的值。实际上它构造成了如下网址:
http://httpbin.org/get?key1=value1&key2=value2

5.2 POST请求

无参数的post请求:
r = requests.post("http://httpbin.org/post")
有参数的post请求:

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)

post请求多用来提交表单数据,即填写一堆输入框,然后提交。

5.3 其他请求

其他一些请求例如put请求、delete请求、head请求、option请求等其实都是类似的。但是平时用的不多,就不仔细介绍了。有用到的可以去看官网文档哦。阅读官方文档是必备技能!

r = requests.put("http://httpbin.org/put")
r = requests.delete("http://httpbin.org/delete")
r = requests.head("http://httpbin.org/get")
r = requests.options("http://httpbin.org/get")

由于文章篇幅有限,文档资料内容较多,需要这些文档的朋友,可以加小助手微信免费获取,【保证100%免费】,中国人不骗中国人。![请添加图片描述](https://img-blog.csdnimg.cn/direct/af266123c20648ceab90e114e2676887.jpeg)
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/40d425ae9a934674a2ab936b8c51af4f.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/8f3d4c4fd14247f78cd664c9d5466159.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9e230c2c4b19436cad127b03685e49e9.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/fa711f69a25f4e78885f79e9bc449d7c.png)

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值