1.网页请求的过程
(1)Request
“请求”
每个展示在用户面前的网页必须经过这一步,也就是向服务器发送咱们的访问请求。
(2)Response
“响应”
服务器接收到用户的请求后,首先会验证请求的有效性,然后向用户发送响应的内容。用户接收响应的内容,将内容展示出来,这就是我们所熟悉的网页请求的过程。
2.网页请求的方式
(1)GET
GET是最常见的方式,一般用于获取或者查询资源信息,参数设置在URL中,其也是大多数网站使用的方式,只需一次发送和返回,响应速度快。
(2)POST
相比于GET方式,POST方式通过request body传递参数,可发送请求的信息远远大于GET方式。
我们在写爬虫之前要先确定向谁发送请求,用什么方式发送请求等。
今天我们来看看怎么使用GET方式来抓取数据
(所有在源码中的数据请求方式都是GET)
在PyCharm中输入以下代码:
import requests #加载requests库
url='http://www.******.cn/'
a=requests.get(url) #调用requests库的get方法并将获取到的数据保存到a变量中
print(a.text) #a变量是一个URL对象,它代表整个网页,但此时只需要网页中的源码,a.text表示网页源码
代码运行结果如下: