Python ------ 爬虫
简介
- 爬虫的概念和作用: 爬虫是一种自动化程序,用于从互联网上抓取数据。它可以帮助我们获取网页上的信息、图片、视频等内容,以及进行数据分析和挖掘。
- Python作为爬虫编程语言的优势: Python具有简洁、易读易写的语法,以及丰富的第三方库支持,如Requests、BeautifulSoup和Scrapy等,使得开发和运行爬虫变得更加简单和高效。
准备工作
- 安装Python解释器: 在开始编写爬虫之前,需要安装Python解释器,可以从官方网站下载并安装。
- 安装爬虫所需的库: 使用pip工具安装爬虫所需的库,包括Requests用于发送HTTP请求、BeautifulSoup用于解析HTML文档等。
HTTP基础知识
- 了解HTTP请求和响应: HTTP是一种用于传输超文本的应用层协议,通过请求-响应模式进行通信,了解HTTP请求和响应的基本流程对于编写爬虫非常重要。
- 了解常见的HTTP状态码: HTTP状态码表示服务器对请求的响应状态,如200表示请求成功,404表示资源未找到等。
- 了解HTTP头部和请求方法: HTTP头部包含了请求和响应的元信息,请求方法包括GET、POST、PUT、DELETE等。
浅析步骤
使用Requests库发送HTTP请求
- 发送GET请求: 使用Requests库发送GET请求获取网页内容。
- 发送POST请求: 使用Requests库发送POST请求提交表单数据等。
- 处理响应数据: 处理Requests库返回的响应数据,如文本、二进制数据、JSON数据等。
使用BeautifulSoup库解析HTML
- 解析HTML文档: 使用BeautifulSoup库解析HTML文档,提取其中的信息。
- 使用CSS选择器和XPath定位元素: 使用CSS选择器和XPath定位HTML文档中的元素,方便地获取所需内容。
- 提取所需信息: 根据网页结构和需要的信息,提取所需的文本、链接、图片等内容。
数据存储
- 存储数据到文本文件: 将爬取到的数据存储到本地文本文件中,方便后续处理和分析。
示例:爬取视频和提取汉字文字的Python爬虫
汉字文字
import requests
from bs4 import BeautifulSoup
import re
# 目标URL
url = 'https://baike.baidu.com/item/Python/407313'
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
print("请求成功")
else:
print(f"请求失败,状态码:{response.status_code}")
# 解析网页内容,使用内置的html.parser
soup = BeautifulSoup(response.text, 'html.parser')
# 获取网页中的所有文本数据
all_text = soup.get_text()
# 使用正则表达式筛选出所有汉字
chinese_characters = re.findall(r'[\u4e00-\u9fff]+', all_text)
# 将所有汉字合并为一个字符串
chinese_text = ''.join(chinese_characters)
# 将文本按照每30个字符一行进行分割
lines = [chinese_text[i:i+30] for i in range(0, len(chinese_text), 30)]
# 每行末尾添加换行符
lines_with_newline = [line + '\n' for line in lines]
# 将输出写到文件
file_path = 'output.txt'
try:
with open(file_path, 'w', encoding='utf-8') as file:
file.writelines(lines_with_newline)
print(f"文件已成功写入:{file_path}")
except Exception as e:
print(f"写入文件时发生错误:{e}")
视频
import requests
import os
try:
def test(i):
# 1.准备url
url = "https://mooc2vod.stu.126.net/nos/hls/2019/09/18/1215127814_9fa627ccbb7e42d39670869f57a1f326_sd%d.ts" % i
# 视频存放位置
root = "D://video//"
# 抓取文件起的名字
path = root + "python%d.mp4" % i
print(path)
if not os.path.exists(root):
# 如果该目录不存在就创建它
os.mkdir(root)
if not os.path.exists(path):
# 获取到目标视频的所有信息
r = requests.get(url)
# 打印访问的状态码是否为200
print(r.status_code)
# 以二进制写的方式将r的二进制内容写入path
with open(path, 'wb') as f:
f.write(r.content)
f.close()
print("文件保存成功")
else:
print("文件已存在")
# 写一个循环方法,获取所有的视频
for i in range(99):
test(i) # 调用爬取视频方法
except:
print("爬取失败")
有关HTTP
HTTP 是什么?
HTTP 是超文本传输协议,也就是HyperText Transfer Protocol。
HTTP 的名字「超文本协议传输」,它可以拆成三个部分:
- 超文本
- 传输
- 协议
超文本
HTTP 传输的内容是「超文本」。
我们先来理解「文本」,在互联网早期的时候只是简单的字符文字,但现在「文本」的涵义已经可以扩展为图片、视频、压缩包等,在 HTTP 眼里这些都算作「文本」。
再来理解「超文本」,它就是超越了普通文本的文本,它是文字、图片、视频等的混合体,最关键有超链接,能从一个超文本跳转到另外一个超文本。
HTML 就是最常见的超文本了,它本身只是纯文字文件,但内部用很多标签定义了图片、视频等的链接,再经过浏览器的解释,呈现给我们的就是一个文字、有画面的网页了。
传输
所谓的「传输」,很好理解,就是把一堆东西从 A 点搬到 B 点,或者从 B 点 搬到 A 点。
别轻视了这个简单的动作,它至少包含两项重要的信息。
HTTP 协议是一个双向协议。
我们在上网冲浪时,浏览器是请求方 A,百度网站就是应答方 B。双方约定用 HTTP 协议来通信,于是浏览器把请求数据发送给网站,网站再把一些数据返回给浏览器,最后由浏览器渲染在屏幕,就可以看到图片、视频了。
数据虽然是在 A 和 B 之间传输,但允许中间有中转或接力。
就好像第一排的同学想传递纸条给最后一排的同学,那么传递的过程中就需要经过好多个同学(中间人),这样的传输方式就从「A < — > B」,变成了「A <-> N <-> M <-> B」。
而在 HTTP 里,需要中间人遵从 HTTP 协议,只要不打扰基本的数据传输,就可以添加任意额外的东西。
针对传输,我们可以进一步理解了 HTTP。
HTTP 是一个在计算机世界里专门用来在两点之间传输数据的约定和规范。
协议
HTTP 是一个用在计算机世界里的协议。它使用计算机能够理解的语言确立了一种计算机之间交流通信的规范(两个以上的参与者),以及相关的各种控制和错误处理方式(行为约定和规范)。
HTTP 常见的状态码有哪些?
1xx
类状态码属于提示信息,是协议处理中的一种中间状态,实际用到的比较少。
2xx
类状态码表示服务器成功处理了客户端的请求,也是我们最愿意看到的状态。
- 「200 OK」是最常见的成功状态码,表示一切正常。如果是非
HEAD
请求,服务器返回的响应头都会有 body 数据。 - 「204 No Content」也是常见的成功状态码,与 200 OK 基本相同,但响应头没有 body 数据。
- 「206 Partial Content」是应用于 HTTP 分块下载或断点续传,表示响应返回的 body 数据并不是资源的全部,而是其中的一部分,也是服务器处理成功的状态。
3xx
类状态码表示客户端请求的资源发生了变动,需要客户端用新的 URL 重新发送请求获取资源,也就是重定向。
- 「301 Moved Permanently」表示永久重定向,说明请求的资源已经不存在了,需改用新的 URL 再次访问。
- 「302 Found」表示临时重定向,说明请求的资源还在,但暂时需要用另一个 URL 来访问。
301 和 302 都会在响应头里使用字段 Location
,指明后续要跳转的 URL,浏览器会自动重定向新的 URL。
- 「304 Not Modified」不具有跳转的含义,表示资源未修改,重定向已存在的缓冲文件,也称缓存重定向,也就是告诉客户端可以继续使用缓存资源,用于缓存控制。
4xx
类状态码表示客户端发送的报文有误,服务器无法处理,也就是错误码的含义。
- 「400 Bad Request」表示客户端请求的报文有错误,但只是个笼统的错误。
- 「403 Forbidden」表示服务器禁止访问资源,并不是客户端的请求出错。
- 「404 Not Found」表示请求的资源在服务器上不存在或未找到,所以无法提供给客户端。
5xx
类状态码表示客户端请求报文正确,但是服务器处理时内部发生了错误,属于服务器端的错误码。
- 「500 Internal Server Error」与 400 类型,是个笼统通用的错误码,服务器发生了什么错误,我们并不知道。
- 「501 Not Implemented」表示客户端请求的功能还不支持,类似“即将开业,敬请期待”的意思。
- 「502 Bad Gateway」通常是服务器作为网关或代理时返回的错误码,表示服务器自身工作正常,访问后端服务器发生了错误。
- 「503 Service Unavailable」表示服务器当前很忙,暂时无法响应客户端,类似“网络服务正忙,请稍后重试”的意思。
HTTP 常见字段有哪些?
Host 字段
客户端发送请求时,用来指定服务器的域名。
有了 Host
字段,就可以将请求发往「同一台」服务器上的不同网站。
Content-Length 字段
服务器在返回数据时,会有 Content-Length
字段,表明本次回应的数据长度。
Connection 字段
Connection
字段最常用于客户端要求服务器使用「HTTP 长连接」机制,以便其他请求复用。
HTTP 长连接的特点是,只要任意一端没有明确提出断开连接,则保持 TCP 连接状态。
所谓TCP
TCP(传输控制协议)是计算机网络中广泛使用的传输层协议。 它在网络上的两台主机之间提供可靠的、面向连接的通信。 TCP 是 Internet 协议套件(通常称为 TCP/IP)的一部分,许多应用程序都使用它来跨网络(包括 Internet)传输数据。
有关使用到的库
requests
requests
是Python中一个常用的HTTP库,用于发送HTTP请求和处理响应。它提供了简单而优雅的API,使得发送HTTP请求变得非常容易。
以上文代码为例
response = requests.get(url)
发送GET请求
GET 的语义是从服务器获取指定的资源,这个资源可以是静态的文本、页面、图片视频等。GET 请求的参数位置一般是写在 URL 中,URL 规定只能支持 ASCII,所以 GET 请求的参数只允许 ASCII 字符 ,而且浏览器会对 URL 的长度有限制(HTTP协议本身对 URL长度并没有做任何规定)。
if response.status_code == 200:
print("请求成功")
else:
print(f"请求失败,状态码:{response.status_code}")
获取响应状态码
soup = BeautifulSoup(response.text, 'html.parser')
获取响应内容(文本形式)
BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
有关html.parser
html.parser是Python标准库中的一个HTML解析器,用于解析HTML文档并提取其中的信息。它是Python的内置模块,无需额外安装。
re
chinese_characters = re.findall(r'[\u4e00-\u9fff]+', all_text)
re.findall 是 Python 中 re 模块提供的一个函数,用于在字符串中查找所有匹配某个正则表达式模式的子串,并返回一个列表。
所谓正则表达式
正则表达式(Regular Expression),通常简称为正则表达式或正则式,是一种用于描述字符串匹配规则的表达式。它是一种强大的文本处理工具,用于在文本中搜索、匹配和替换特定的模式。
1. 基本概念
- 模式(Pattern):正则表达式的基本单位,用于描述要匹配的字符串规则。
- 元字符(Metacharacter):在正则表达式中具有特殊含义的字符,如
.
、*
、+
等。 - 字符类(Character class):用于匹配单个字符的模式,如
[a-z]
表示匹配任意小写字母。 - 量词(Quantifier):用于指定匹配次数的模式,如
*
、+
、?
、{n}
、{m,n}
等。 - 分组(Group):用圆括号
()
将模式分组,方便对子表达式进行重复、捕获等操作。 - 反向引用(Backreference):在正则表达式中引用已匹配的子表达式。
- 转义字符(Escape character):用于取消元字符的特殊含义,如
\
。
2. 常用元字符
.
:匹配任意单个字符(除了换行符\n
)。^
:匹配字符串的开头。$
:匹配字符串的结尾。*
:匹配前面的模式零次或多次。+
:匹配前面的模式一次或多次。?
:匹配前面的模式零次或一次。[]
:定义字符类,匹配方括号内的任意一个字符。|
:表示“或”关系,匹配两个模式中的任意一个。
代码中的解释
[]
:表示字符类,用于指定一个字符集合。\u4e00-\u9fff
:表示 Unicode 编码范围,包括了汉字的 Unicode 范围。具体来说,\u4e00
是汉字“一”的 Unicode 编码,\u9fff
是汉字“鿿”的 Unicode 编码。+
:表示匹配前面的模式一次或多次,即匹配一个或多个汉字。
因此,[\u4e00-\u9fff]+
可以匹配任意包含一个或多个汉字的字符串。
os
os.mkdir(path)
: 创建目录。
os.mkdir(root)
os.path.exists(path)
: 判断路径是否存在。
if not os.path.exists(root):
图片来源:[4.1 TCP 三次握手与四次挥手面试题 | 小林coding (xiaolincoding.com)]()