Python————requests库的导入和第一个网络爬虫

        今天还是有请到我们的老朋友《从零开始学习网络爬虫》,相信愿意学习Python爬虫的小伙伴们都已经安装好了Python的社区版(当然Python专业版也行),基于本书前面第一、二章就不过多赘述。小编的讲解从第三章开始

#Python第三方库——Requests库

#引入Requests库的方法,如下

首先打开python里面的终端,在python的左下角,点击一下

或者快捷键alt+F12

然后在终端里面输入pip install requests

等待python自行下载

然后我们的准备工作完成了

#爬虫的原理

(1)模拟计算机对服务器发起Requests请求

(2)接受服务器端的Requests内容并解析、提取所需信息

#实现第一个网络爬虫

本次发布时间为2023.10.22(因为网站这个东西具有时效性)

import requests
#首先导入我们刚刚下载的requests请求模块


headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.125 Safari/537.36'
}

#headers表示请求头,一般我们要伪装起来,不要让网站机器人发现我们是爬虫
#'User-Agent','Cookie','Host'一般为常见的请求头,
#有些时候会出现秘钥,具体要看网站里面的来确定(秘钥比较少)

response=requests.get('https://www.xiaozhu.com/',headers=headers)

#表示从该网页发送请求,获得响应体对象

#response我们称作响应体对象
#requests.get(url,headers,data,params,proxies)一般可以放置这几个参数
#url是网站地址,headers是请求头,data表示请求参数,params表示查询参数


print(response.text)
#一定要打印.text才会出现html或者是json文件
#print(response)---->打印的是响应体对象<Response [200]>
#这个200表示状态码,表示成功获得请求

这是我们获得的数据是html相关的代码

https://www.xiaozhu.com/小猪名宿网址

通过在该网页打开开发者工具——键盘F12

查看到第一个包www.xiaozhu.com,点击response查看到数据是和我们代码请求到数据是一样的

我们代码用的get方法:发现网页也是get方法,后续案例会有post方法,之后再讲那么我们为什么headers这样写呢?请看下面

切记切记,一定要查看Request Headers请求头,而不是Response Headers响应头

我们的构建就是根据这个来创建的,创建时我们一般直接复制下来.

关于开发者工具F12大家可以去CSDN其他博主那里看下如何操作@@@@@

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烧酒调调

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值