Python爬虫入门

最新推荐文章于 2024-08-23 16:53:34 发布

狗蛋的博客之旅

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量1.7k

点赞数

分类专栏：想要学习Python脚本编写？这个专栏将完美满足你的需求文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_43263566/article/details/130990837

版权

想要学习Python脚本编写？这个专栏将完美满足你的需求专栏收录该内容

41 篇文章 55 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python爬虫的基础知识，包括爬虫的概念、Python爬虫的优势以及如何进行Python爬虫开发，涉及分析需求、编写代码、发送HTTP/HTTPS请求和解析HTML网页内容。通过实例展示了使用requests和BeautifulSoup库进行爬虫开发的方法。

摘要由CSDN通过智能技术生成

部分数据来源：ChatGPT

什么是爬虫?

在Web开发领域，爬虫(也称为网络爬虫或网络机器人)是一种用于采集信息的程序。爬虫程序可以自动地从互联网上抽取所需的数据，并将其保存到本地的文件或数据库中，用于分析和处理。爬虫程序在搜索引擎、社交媒体、电商网站等领域得到了广泛的应用。

Python爬虫的优点

Python作为一门高级编程语言，在爬虫领域也得到了广泛的应用。使用Python进行爬虫开发具有许多优势，包括：

易学易用。Python语法简洁明了，易于理解和操作，是一种非常适合初学者的编程语言。
丰富的第三方库。Python拥有丰富的第三方库，其中包含了许多专门用于爬虫开发的库，如requests、Beautiful Soup、Scrapy等。
可极速爬取大规模数据。Python的多线程、协程等特性可以使得程序在处理高并发请求时可大幅提升效率，来达到极速爬取大规模数据的效果。

如何进行Python爬虫开发?

Python爬虫开发可以分为以下步骤:

分析需求。定义需要从网站中提取的信息。
编写代码。基于需要，编写相应的爬虫程序。
保存结果。将抓取到的数据保存到本地文件或数据库。

分析需求

在进行Python爬虫开发之前，需要先确定需要从网站中提取哪些信息。这些信息可以包括网页正文、图片、视频等多种类型的数据。针对不同类型的数据，可以采用不同的爬虫方式，比如使用requests库进行网页数据抓取，或使用selenium库进行动态网页的渲染和数据抓取。

编写代码

下面我们以 requests + Beautiful Soup 为例，简单介绍如何编写一个Python爬虫程序。

使用Python进行爬虫开发，你需要安装以下两个库：

requests库：用于向目标网站发送HTTP/HTTPS请求，并获取相应的内容。
Beautiful Soup库：用于解析HTML/XML格式的网页内容。

你可以在命令行界面运行以下代码，安装这两个库：

pip install requests
pip install beautifulsoup4

发送HTTP/HTTPS请求

首先，我们需要使用requests库发送HTTP/HTTPS请求，以对目标网站进行访问。下面是一个简单的requests库示例：

import requests

url = 'http://www.example.com'
response = requests.get(url)
print(response.text)

以上代码中，我们使用requests库发送一个HTTP GET请求，并打印出响应的内容。这里需要注意的是，我们使用的是HTTP协议而非HTTPS协议。如果需要使用HTTPS协议，请在URL中加上对应的协议头：https://www.example.com。

解析HTML网页内容

获取到页面的源代码之后，我们需要解析其中的HTML内容。我们使用BeautifulSoup库来完成这一过程。下面是一个简单的BeautifulSoup库示例：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="s

解析HTML网页内容

获取到页面的源代码之后，我们需要解析其中的HTML内容。我们使用BeautifulSoup库来完成这一过程。下面是一个简单的BeautifulSoup库示例：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

在上面的示例中，我们定义了一个HTML文档，然后使用BeautifulSoup库把这个文档进行解析，并用prettify()方法将解析后的HTML文档格式化展示出来。

通常我们会经常使用find_all()、find()、select()等方法进行选择器的操作，它们可以用于快速方便的提取符合要求的HTML标签元素，下面是一个示例代码：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
title = soup.find('title').string
print(title)

links = soup.find_all('a')
for link in links:
    print(link.get('href'), link.string)

在上面的示例中，我们使用find()方法查找title标签元素，并输出它的文本内容。接着，我们使用find_all()方法查找所有的a标签元素，并输出它们的href属性和文本内容。

使用正则表达式匹配网页内容

有时，我们需要使用正则表达式对网页内容进行匹配。Python中已经提供了re库，可以轻松地完成这个任务。

下面是一个示例，我们使用requests库和re库抓取新浪新闻页面中的标题：

import requests
import re

url = 'https://news.sina.com.cn/'
response = requests.get(url)
pattern = '<a.*?href="(\S+).*?>(.*?)</a>'
result = re.findall(pattern, response.text)
for item in result:
    print(item[1], item[0])

在上面的示例中，我们先使用requests库发送一个HTTP GET请求，获取新浪新闻首页的HTML页面源代码。然后，使用re.findall()方法，通过正则表达式获取页面中的所有链接。最后，将抓取到的标题和链接打印出来。