python 爬虫初步

最新推荐文章于 2024-08-16 18:55:06 发布

LYLGXYXXX

最新推荐文章于 2024-08-16 18:55:06 发布

阅读量157

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_73246306/article/details/127232812

版权

文章目录

1.requests库使用
2.请求头
3.html语言
4.获取网页源代码

1.requests库使用

爬虫首先要做的第一步就是获取所需信息所在的网页地址，这时就需要我们的requests库。
本文仅介绍其中的get请求。
具体模式如下

import requests#导入requests库
url="（在此粘贴你所需的网页域名）"
head={
"User-Agent":"（你的ua信息）"
}
oi=requests.get(url,headers=head)#变量名随意起，但最好有针对性

2.请求头

目前大多数网页都会设置ua权限，使得客户端只能以浏览器访问网页。ua，即user-agent，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等等。设置ua权限是一种简单的防爬手段，因为一般爬虫发起请求时是不会具有以上那些信息在请求头里的，所以很容易被拒绝访问。
所以我们要主动添加ua信息以免服务端拒绝提供服务。
而ua信息我们在浏览器的就能查找到
点击进入浏览器，单击右键，再点击检查就能看到网页的检查元素工具，上面找到网络，进入任意文件查找（如果没有文件就刷新网页）找到标头，其中就要请求头，里面就有相关的ua信息了。
复制值粘贴到headers里就行
如上代码块所示。

3.html语言

学习爬虫需要一定程度的前端知识，所以可以先去了解http协议以及html（超文本标记语言）再来深入学习。
总之，html可以简单理解为网页的编写语言，网页的各种功能都是由它来实现的。所以获取在网页上我们所需要的信息需要从网页的html相关代码中获取。
本文仅介绍基本方法

4.获取网页源代码

我们只需在之前获取网页的变量后面加上，.txt即可获取相关网页源代码。
随后可以用print直接显示出来。
而想要对其中的有关部分代码进行提取还需要学习另外的知识，如xpath或者正则等等。

本文仅初步说明爬虫的基本要求。

LYLGXYXXX

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫初步

ua，即user-agent，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等等。点击进入浏览器，单击右键，再点击检查就能看到网页的检查元素工具，上面找到网络，进入任意文件查找（如果没有文件就刷新网页）找到标头，其中就要请求头，里面就有相关的ua信息了。总之，html可以简单理解为网页的编写语言，网页的各种功能都是由它来实现的。爬虫首先要做的第一步就是获取所需信息所在的网页地址，这时就需要我们的requests库。
复制链接

扫一扫