Python————requests库的导入和第一个网络爬虫

最新推荐文章于 2024-08-10 16:12:35 发布

烧酒调调

最新推荐文章于 2024-08-10 16:12:35 发布

阅读量1.4k

点赞数 6

文章标签：爬虫

本文链接：https://blog.csdn.net/liandailin/article/details/133977191

版权

今天还是有请到我们的老朋友《从零开始学习网络爬虫》,相信愿意学习Python爬虫的小伙伴们都已经安装好了Python的社区版（当然Python专业版也行），基于本书前面第一、二章就不过多赘述。小编的讲解从第三章开始

#Python第三方库——Requests库

#引入Requests库的方法，如下

首先打开python里面的终端，在python的左下角，点击一下

或者快捷键alt+F12

然后在终端里面输入pip install requests

等待python自行下载

然后我们的准备工作完成了

#爬虫的原理

(1)模拟计算机对服务器发起Requests请求

(2)接受服务器端的Requests内容并解析、提取所需信息

#实现第一个网络爬虫

本次发布时间为2023.10.22（因为网站这个东西具有时效性）

import requests
#首先导入我们刚刚下载的requests请求模块


headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.125 Safari/537.36'
}

#headers表示请求头,一般我们要伪装起来，不要让网站机器人发现我们是爬虫
#'User-Agent','Cookie','Host'一般为常见的请求头,
#有些时候会出现秘钥,具体要看网站里面的来确定（秘钥比较少）

response=requests.get('https://www.xiaozhu.com/',headers=headers)

#表示从该网页发送请求，获得响应体对象

#response我们称作响应体对象
#requests.get(url,headers,data,params,proxies)一般可以放置这几个参数
#url是网站地址,headers是请求头，data表示请求参数，params表示查询参数


print(response.text)
#一定要打印.text才会出现html或者是json文件
#print(response)---->打印的是响应体对象<Response [200]>
#这个200表示状态码，表示成功获得请求

这是我们获得的数据是html相关的代码