爬虫入门与实战：Python 爬虫教程

最新推荐文章于 2024-07-08 17:24:57 发布

阿莫啊

最新推荐文章于 2024-07-08 17:24:57 发布

阅读量581

点赞数 1

分类专栏：课外知识 # python 文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/weixin_40695748/article/details/131668689

版权

课外知识同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

‍

图片来源：Pexels

‍

## 介绍

本篇文章将为您带来一份详细的 Python 爬虫教程，适合初学者入门。通过实战方式，您将在阅读本文的过程中掌握编写简单 Python 爬虫的基本技巧和方法。本教程主要包括以下五个部分内容：

了解网页结构
使用 requests 库抓取网站数据
使用 Beautiful Soup 解析网页
清洗和组织数据
爬虫攻防战

在开始之前，我们先来了解一下什么是网页结构以及如何运用 Python 爬虫来抓取网站数据。

了解网页结构

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。HTML 是整个网页的结构，相当于整个网站的框架；CSS 表示网页的样式，定义了网页的外观；JScript 表示网页的功能，描述了网页中的各种交互行为。

HTML 是网页的基础，它由一系列标签组成。常见的 HTML 标签如下：

<html>：表示网页的开始和结束
<body>：表示用户可见的内容
<div>：表示网页的框架
<p>：表示段落
<li>：表示列表
<img>：表示图片
<h1>：表示标题
<a>：表示超链接

CSS 用于定义网页的样式，可以通过在 HTML 中引用 CSS 文件来实现。JScript 则用于实现网页中的各种功能和交互效果。

现在，让我们通过一个简单的 HTML 示例来更好地理解 HTML 的结构：

<html>
<head>
<title>Python 3 爬虫与数据清洗入门与实战</title>
</head>
<body>
<div>
<p>Python 3爬虫与数据清洗入门与实战</p>
</div>
<div>
<ul>
<li><a href="http://c.biancheng.net">爬虫</a></li>
<li>数据清洗</li>
</ul>
</div>
</body>
</html>

通过打开一个记事本，将上述代码粘贴进去，并将文件名保存为"HTML.html"，然后运行该文件，您将看到一个简单的网页效果。

在了解了网页结构之后，我们来讨论一下爬虫的合法性以及如何对网站进行请求。

爬虫的合法性

几乎每个网站都有一个名为 robots.txt 的文档，用于指定爬虫访问的权限。如果一个网站没有设置 robots.txt，那么爬虫可以自由地抓取该网站的数据。但是，如果网站有设置 robots.txt，就需要判断是否有禁止访客获取的数据。

以淘宝网为例，如果在浏览器中访问淘宝网的 robots.txt 文件，可以看到以下内容：

User-Agent: *
Disallow: /

这段代码的意思是除了指定的爬虫外，其他爬虫都不允许访问任何数据。

在进行爬虫之前，务必要查看目标网站的 robots.txt 文件，以确保您的爬虫行为合法。

使用 requests 库请求网站

在进行网页数据抓取之前，我们首先需要安装 requests 库。在 PyCharm 中打开项目设置，选择"Project Interpreter"，然后点击加号搜索并安装 requests 库。

requests 库是一个强大的库，可以用于发送 HTTP 请求并获取网页数据。通过使用 requests 库，我们可以轻松地获取网页的源码。

在 Python 中，使用 requests 库发送 GET 请求非常简单。下面是一个使用 GET 请求抓取网页数据的示例代码：

import requests

url = 'http://www.cntour.cn/'
strhtml = requests.get(url)
print(strhtml.text)

在上述代码中，我们首先导入了 requests 库，然后指定了要抓取的网页的 URL，并使用 requests.get 方法发送了 GET 请求。最后，我们打印出获取到的网页源码。

通过运行上述代码，您将看到目标网页的源码。

使用 POST 方式抓取数据

除了使用 GET 请求抓取网页数据，我们还可以使用 POST 请求来获取数据。与 GET 请求不同，POST 请求可以在请求中附带参数。

下面是一个使用 POST 请求抓取数据的示例代码：

import requests
import json

def get_translate_data(word):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    form_data = {
        'i': word,
        'from': 'zh-CHS',
        'to': 'en',
        'smartresult': 'dict',
        'client': 'fanyideskweb',
        'salt': '15477056211258',
        'sign': 'b3589f32c38bc9e3876a570b8a992604',
        'ts': '1547705621125',
        'bv': 'b33a2f3f9d09bde064c9275bcb33d94e',
        'doctype': 'json',
        'version': '2.1',
        'keyfrom': 'fanyi.web',
        'action': 'FY_BY_REALTIME',
        'typoResult': 'false'
    }
    response = requests.post(url, data=form_data)
    content = json.loads(response.text)
    print(content)

if __name__ == '__main__':
    get_translate_data('我爱中国')

在上述代码中，我们定义了一个 get_translate_data 函数，该函数接受一个参数 word，并使用 POST 请求向有道翻译发送数据。通过解析返回的 JSON 数据，我们可以获取到翻译后的结果。

通过运行上述代码，您将看到翻译结果的 JSON 数据。

使用 Beautiful Soup 解析网页

现在我们已经学会了如何使用 requests 库获取网页数据，接下来我们将使用 Beautiful Soup 来解析网页。

Beautiful Soup 是 Python 的一个强大的库，它可以帮助我们从网页中抓取数据。Beautiful Soup 已经被移植到 bs4 库中，所以在使用之前，我们需要先安装 bs4 库。

安装 bs4 库的方法如下：

打开 PyCharm 的项目设置
选择"Project Interpreter"
点击加号搜索并安装 bs4 库

安装好 bs4 库后，我们还需要安装 lxml 库。lxml 库是一个高性能的解析库，相比于 Python 默认的解析器，lxml 提供了更强大和更快速的解析功能。

安装完成后，我们可以开始使用 Beautiful Soup 了。下面是一个使用 Beautiful Soup 解析网页的示例代码：

import requests
from bs4 import BeautifulSoup

url = 'http://www.cntour.cn/'
strhtml = requests.get(url)
soup = BeautifulSoup(strhtml.text, 'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul')
print(data)

在上述代码中，我们导入了 requests 和 BeautifulSoup，然后使用 requests 库获取了网页的源码，并将其传递给 BeautifulSoup 对象进行解析。通过使用 CSS 选择器语法，我们可以轻松地从网页中抓取想要的数据。

通过运行上述代码，您将看到符合 CSS 选择器语法的数据。

清洗和组织数据

在使用爬虫抓取到网页数据后，通常需要对数据进行清洗和组织，以便后续的分析和使用。

清洗数据主要包括去除无用的标签和字符，以及处理数据中的噪声和错误。组织数据则是将抓取到的数据按照一定的结构进行整理，以便后续的处理和展示。

清洗和组织数据的方法有很多种，具体要根据实际情况来决定。下面是一个简单的示例，展示了如何对抓取到的网页数据进行清洗和组织：

import requests
from bs4 import BeautifulSoup

url = 'http://www.cntour.cn/'
strhtml = requests.get(url)
soup = BeautifulSoup(strhtml.text, 'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul')
result = []

for item in data:
    title = item.find('a')
    link = item.find('a')['href']
    result.append({
        'title': title.get_text(),
        'link': link
    })

print(result)

在上述代码中，我们使用了一个简单的循环来遍历抓取到的数据，并提取出标题和链接。然后，我们将这些数据以字典的形式添加到一个列表中。

通过运行上述代码，您将看到组织好的数据。

爬虫攻防战

在进行网页数据抓取的过程中，我们可能会遇到一些反爬虫的机制。为了规避这些机制，我们需要采取一些策略和措施。

常见的反爬虫机制包括验证码、频率限制、IP 封禁等。为了应对这些机制，我们可以通过使用代理 IP、设置请求头信息、调整请求频率等方式来规避反爬虫机制。

下面是一些常用的反爬虫规避策略：

使用代理 IP：通过使用代理 IP，我们可以隐藏真实的访问 IP，从而规避 IP 封禁。
设置请求头信息：一些网站会根据请求头信息来判断是否是爬虫，我们可以设置 User-Agent 等信息来模拟正常的浏览器请求。
调整请求频率：如果我们发送请求的频率过高，很容易被网站识别为爬虫。因此，我们可以通过设置请求间隔时间来控制请求的频率。

在实际的爬虫开发中，我们需要根据具体的情况来选择合适的规避策略。

总结

本篇文章介绍了 Python 爬虫的基本知识和技巧。我们首先了解了网页的结构和爬虫的合法性，然后学习了使用 requests 库抓取网页数据和使用 Beautiful Soup 解析网页的方法。接着，我们讨论了数据的清洗和组织以及如何规避反爬虫机制。

通过学习本教程，您已经具备了编写简单 Python 爬虫的基本能力。在实际的爬虫开发中，您还需要不断学习和探索，以应对不同的情况和挑战。祝您在爬虫的世界中取得成功！

阿莫啊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫入门与实战：Python 爬虫教程

JScript 表示网页的功能，描述了网页中的各种交互行为。我们首先了解了网页的结构和爬虫的合法性，然后学习了使用 requests 库抓取网页数据和使用 Beautiful Soup 解析网页的方法。在上述代码中，我们导入了 requests 和 BeautifulSoup，然后使用 requests 库获取了网页的源码，并将其传递给 BeautifulSoup 对象进行解析。通过打开一个记事本，将上述代码粘贴进去，并将文件名保存为"HTML.html"，然后运行该文件，您将看到一个简单的网页效果。
复制链接

扫一扫