初学者如何用 Python 写第一个爬虫?

初学者如何用 Python 写第一个爬虫?

一、爬虫的基本概念

(一)爬虫的定义

爬虫,英文名为 Web Crawler,也被叫做网络蜘蛛、网络机器人。想象一下,有一个勤劳的小蜘蛛,在互联网这个巨大的蜘蛛网中穿梭。它能够模拟人类用户浏览网页的行为,自动地在网页间跳转,其主要目的就是从网页里精准地提取出我们想要的特定内容。比如说,你想知道某电商平台上某款手机的所有评论,或者某个新闻网站上关于特定主题的所有文章,爬虫就可以帮你快速获取这些信息。

(二)爬虫的主要工作流程

发送请求:依据 HTTP 协议,就像是你去商店买东西要遵循商店的规则一样,爬虫按照这个规则向目标网页发起请求。它会带着一些必要的信息,比如告诉网页它想要获取什么内容,然后得到网页的 HTML 源代码,这就像是拿到了商店给你的商品清单。例如,当你在浏览器地址栏输入一个网址并回车,浏览器就会按照 HTTP 协议向对应的服务器发送请求,获取网页内容,爬虫也是类似的原理。

解析数据:获取到的 HTML 内容就像是一团杂乱的线球,里面包含了很多我们不需要的信息。解析数据这一步就是要把这团线球理顺,精准地提取出我们真正需要的数据。比如从 HTML 代码中找到网页的标题、正文内容、图片链接等等。可以把这一步想象成从一堆杂物中挑出你需要的宝贝。

存储数据:将提取出的数据妥善保存起来,就像你把买到的宝贝放在合适的地方,方便后续进一步处理与分析。可以保存到文件中,比如常见的 txt 文本文件,也可以保存到数据库里,方便进行数据的管理、查询等操作。

(三)常用 Python 工具

requests:它是一个用于高效发送 HTTP 请求的库。使用它就像给网页发送一封 “邮件”,轻松获取网页内容。比如,你想获取百度首页的内容,使用 requests 库几行代码就能搞定。它支持多种请求方式,如 GET、POST 等,满足不同场景下的需求。

BeautifulSoup:这个库专注于解析 HTML 或 XML 数据,能把复杂的 HTML 结构转化为 Python 对象,让我们可以很方便地提取特定内容。它就像是一个专业的 “整理师”,把 HTML 代码整理得井井有条,我们可以轻松地找到自己想要的标签和内容。例如,要找到网页中的所有链接,使用 BeautifulSoup 就能快速实现。

re(正则表达式):正则表达式就像是一个强大的 “搜索工具”,可以精准匹配并提取复杂文本中的特定模式。比如,当你要从一段文本中找出所有符合邮箱格式的字符串,或者提取出所有的电话号码,正则表达式就能发挥巨大作用。它有一套自己独特的语法规则,掌握了这些规则,就能在文本处理中如鱼得水。

pandas:在数据清洗与分析方面表现出色,是处理数据的得力助手。它可以对爬取到的数据进行清洗、转换、分析等操作。例如,将爬取到的杂乱无章的数据整理成整齐的表格形式,方便进行数据分析和可视化展示。

二、环境搭建

(一)安装 Python

确保你的计算机已安装 Python,建议使用 3.7 及以上版本。如果还没有安装,别担心,这很简单。你可以前往 Python 官方网站(https://www.python.org/),在网站上找到下载按钮,根据你计算机的系统(Windows、Mac 或 Linux)选择对应的安装包进行下载。下载完成后,按照安装向导的提示一步步进行安装即可。安装过程中,记得勾选添加 Python 到系统路径选项,这样在后续使用命令行时就能更方便地调用 Python 了。

(二)安装必要库

安装好 Python 后,接下来要安装我们编写爬虫所需的库。打开命令行或终端(在 Windows 系统中可以通过搜索 “命令提示符” 找到,Mac 系统中可以在 “应用程序 - 实用工具” 中找到 “终端”)。在命令行中运行以下命令来安装所需的 Python 库:

pip install requests beautifulsoup4

这里的pip是 Python 的包管理工具,就像一个软件管家,通过它可以方便地安装、升级和卸载 Python 库。requests库用于发送 HTTP 请求,beautifulsoup4库用于解析 HTML 数据。安装过程中,命令行会显示安装进度,耐心等待安装完成即可。

三、编写第一个简单爬虫

现在,我们就来动手实现一个简单的爬虫,目标是抓取某个网页的标题与正文内容。比如说,我们以一个简单的示例网页https://example.com为例(实际使用时你可以替换为你感兴趣的网页,但要注意网页的使用条款和法律规定,确保合法合规地进行数据爬取)。

(一)完整代码示例

import requests

from bs4 import BeautifulSoup

def simple_crawler(url):

   try:

       # 发送HTTP请求

       response = requests.get(url)

       # 检查请求状态

       response.raise_for_status()

       # 解析HTML数据

       soup = BeautifulSoup(response.text, 'html.parser')

       # 提取网页标题

       title = soup.find('title').text

       # 提取网页正文段落

       paragraphs = soup.find_all('p')

       print(f"网页标题: {title}")

       print("网页内容:")

       # 遍历并打印段落内容

       for p in paragraphs:

           print(p.text)

   except requests.exceptions.RequestException as e:

       print(f"请求失败: {e}")

url = "https://example.com"

simple_crawler(url)

(二)代码逐步解析

发送 HTTP 请求

response = requests.get(url)

这一行代码使用requests.get()方法向目标网址发起 GET 请求。这里的url就是我们要爬取的网页地址。requests.get()方法会返回一个response对象,这个对象包含了网页的全部内容,其中就有我们需要的 HTML 源代码。就好比你向一个地方发送了一个请求,对方给你寄回了一个包裹,这个包裹里装着网页的信息。

  1. 检查请求状态
response.raise_for_status()

这行代码借助raise_for_status()方法来检查请求是否成功。HTTP 协议中有很多状态码,比如 200 表示请求成功,404 表示网页未找到,500 表示服务器内部错误等。如果返回的 HTTP 状态码代表错误,raise_for_status()方法就会触发异常,这样我们就能知道请求过程中出现了问题。这就像是你收到包裹后,先检查一下包裹是否完好无损,如果有问题就及时发现。

  1. 解析 HTML 数据
soup = BeautifulSoup(response.text, 'html.parser')

这一步使用BeautifulSoup库来解析 HTML 内容。response.text就是前面获取到的网页 HTML 源代码,'html.parser'指定使用 Python 内置的 HTML 解析器。BeautifulSoup会把 HTML 内容转化为一个便于操作的 Python 对象,就像把杂乱的物品整理分类,方便我们后续查找和提取需要的信息。

  1. 提取网页内容
title = soup.find('title').text

paragraphs = soup.find_all('p')

find('title')方法用于精准定位 HTML 代码中的<title>标签,并通过.text获取标签内的文本内容,也就是网页的标题。find_all('p')方法则是提取所有的段落标签<p>,并以列表的形式呈现。这就像是在整理好的物品中,专门挑出标题和所有段落的物品。

  1. 打印结果
for p in paragraphs:

   print(p.text)

这部分代码通过一个循环遍历提取到的段落内容,并逐一打印每个段落的文本。这样我们就能在控制台看到网页的标题和正文内容了。就像你把挑出的段落物品一个一个拿出来展示。

四、优化爬虫功能

(一)添加请求头

有些网站很 “聪明”,会识别并阻止爬虫程序的访问。这时候,我们可以通过添加请求头来模拟浏览器的访问行为,让网站以为是真实用户在访问。比如:

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}

response = requests.get(url, headers=headers)

这里的headers就是我们设置的请求头,User - Agent字段模拟了一个 Chrome 浏览器的信息。当我们发送请求时,带上这个请求头,网站就更有可能允许我们访问。

(二)控制爬取频率

为了避免对目标网站造成过大负载,我们可以在每次请求后合理设置延时。比如:

import time

def delay_request(url):

   response = requests.get(url)

   time.sleep(2)

   return response

在这个函数中,使用time.sleep(2)让程序暂停 2 秒后再继续执行下一次请求。这样可以减轻目标网站的压力,也能避免因为频繁请求而被网站封禁。

(三)保存数据

将爬取到的数据妥善保存至文件或数据库中。

保存至文件

with open("output.txt", "w", encoding="utf - 8") as f:

   f.write(f"标题: {title}n")

   for p in paragraphs:

       f.write(p.text + "n")

这段代码使用with open()语句打开一个名为output.txt的文件,以写入模式("w"),并指定编码为utf - 8。然后将网页标题和段落内容逐行写入文件中。

  1. 保存至 CSV 文件
import csv

with open("output.csv", "w", newline="", encoding="utf - 8") as csvfile:

   writer = csv.writer(csvfile)

   writer.writerow(("段落内容"))

   for p in paragraphs:

       writer.writerow((p.text))

这里使用csv模块将数据保存为 CSV 文件。先创建一个csv.writer对象,然后写入表头"段落内容",再将每个段落内容逐行写入文件。

五、应对复杂网页

(一)动态加载网页

对于由 JavaScript 渲染的网页,requests库无法获取完整内容,因为它不会执行 JavaScript 代码。这时候我们可以选用seleniumplaywright。以selenium为例:

from selenium import webdriver

url = "https://example.com"

driver = webdriver.Chrome()

driver.get(url)

html = driver.page_source

首先导入webdriver模块,然后创建一个Chrome浏览器驱动对象(需要提前下载对应版本的 ChromeDriver 并配置好路径)。通过driver.get(url)方法打开网页,driver.page_source可以获取到经过 JavaScript 渲染后的完整网页源代码,这样就能进一步解析和提取我们需要的数据了。

(二)处理 AJAX 请求

有些网页会通过 AJAX 请求来动态加载数据。要处理这种情况,我们需要分析网页的网络请求,找到 AJAX 请求的 URL 和参数。比如,在 Chrome 浏览器中,打开网页后按 F12 键,进入开发者工具,切换到 “Network” 选项卡,刷新网页,就能看到网页发起的所有请求。找到 AJAX 请求对应的 URL,然后使用requests库模拟发送这个请求,获取数据。例如:

ajax_url = "https://example.com/ajax - data"

params = {"param1": "value1", "param2": "value2"}

response = requests.get(ajax_url, params=params)

data = response.json()

这里ajax_url是 AJAX 请求的 URL,params是请求参数,通过requests.get()方法发送请求,假设返回的数据是 JSON 格式,使用.json()方法将其解析为 Python 的字典或列表形式,方便进一步处理。

结语

恭喜你,勇敢的编程探险家!你已经成功迈出了用 Python 编写爬虫的第一步,这是一段充满无限可能的奇妙旅程的开始。也许在这个过程中,你遇到了一些挑战,比如代码报错、数据提取不准确,但请相信,每一次解决问题都是一次成长。

学会 Python 之后,你的世界将变得更加广阔。在数据领域,你可以轻松地从互联网上收集大量数据,进行数据分析和挖掘,发现隐藏在数据背后的规律和价值,无论是用于学术研究、商业决策还是个人兴趣项目都非常有用。在自动化办公方面,Python 爬虫可以帮你自动获取工作中需要的信息,如市场数据、行业报告等,大大提高工作效率。甚至在网络安全领域,你可以利用爬虫技术进行漏洞扫描和安全评估。所以,不要停下脚步,继续探索 Python 的世界,不断学习和实践,你会发现自己的潜力远超想象,能够创造出令人惊叹的作品。加油,未来的编程大师就是你!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

长风清留扬

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值