Python 爬虫实战：驾驭数据洪流，揭秘网页深处

程序员新一

已于 2024-01-09 11:35:09 修改

阅读量577

点赞数

文章标签： python 爬虫开发语言

于 2023-07-26 18:25:58 首次发布

本文链接：https://blog.csdn.net/m0_70486148/article/details/131945314

版权

爬虫，这个经常被人提到的词，是对数据收集过程的一种形象化描述。特别是在Python语言中，由于其丰富的库资源和良好的易用性，使得其成为编写爬虫的绝佳选择。本文将从基础知识开始，深入浅出地讲解Python爬虫的相关知识，并分享一些独特的用法和实用技巧。本文将以实际的网站为例，深入阐述各个处理部分，并展示输出，助力大家快速掌握Python爬虫技巧。

开始之前：必要的库

Python有很多库可以用来编写爬虫，但我们这里重点介绍两个：requests和BeautifulSoup。

import requests  
from bs4 import BeautifulSoup

requests库用于发送HTTP请求，而BeautifulSoup库则用于解析HTTP响应中的HTML。

基本爬虫：爬取全部网页内容

以Python官方网站（https://www.python.org/）为例，一个基本的Python爬虫可能会这样编写：

url = "https://www.python.org/"  
response = requests.get(url)  
soup = BeautifulSoup(response.text, 'html.parser')  
print(soup.prettify()[:500])

这段代码的目的是获取网页的内容，并使用BeautifulSoup库进行解析。我们可以看到，requests.get(url)是用来发送GET请求的，而BeautifulSoup(response.text, 'html.parser')则是用来解析HTTP响应中的HTML内容的。

这段代码的输出前500个字符如下：

<!DOCTYPE html>  
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->  
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->  
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->  
<!--[if gt IE 8]><!--><html class="no-js" dir="ltr" lang="en">  <!--<![endif]-->  
<head>  
<meta charset="utf-8"/>  
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>  
<meta content="Python.org" name="application-name"/>  
<meta content="The official home of the Python Programming Language"

使用CSS选择器爬取特定元素

当我们希望获取特定元素时，我们可以使用CSS选择器。比如我们希望获取Python官方网站中所有的头部链接：

elements = soup.select('div.top-bar > ul > li > a')  
for element in elements:  
    print(element.get('href'), element.text)

在这里，div.top-bar > ul > li > a是一个CSS选择器，用来选择

class为top-bar的div元素下的ul元素中的li元素下的a元素。这些a元素就是我们想要的头部链接。

这段代码的部分输出如下：

/ Python  
/psf-landing/ PSF  
/docs/ Docs  
/pypl/ PyPI  
/jobs/ Jobs  
/community-landing/ Community

HTML解析语言爬取：XPath

除了CSS选择器，还有一种常用的HTML解析技术是XPath。XPath，全称XML Path Language，是一门在XML文档中查找信息的语言，也可以用在HTML文档解析中。

Python的lxml库提供了XPath的支持：

from lxml import etree  
  
html = '<div><a href="/a">A</a><a href="/b">B</a></div>'  
root = etree.HTML(html)  
  
links = root.xpath('//a/@href')  
print(links)

在这段代码中，我们首先定义了一个HTML字符串。然后，我们使用etree.HTML()函数将这个字符串解析成一个DOM树。最后，我们使用root.xpath()方法提取出所有的链接。

绝对链接爬取

你可能已经注意到，上述代码的输出中的链接是相对链接，而不是绝对链接。如果我们希望获取绝对链接，我们可以使用urljoin函数：

from urllib.parse import urljoin  
  
elements = soup.select('div.top-bar > ul > li > a')  
for element in elements:  
    absolute_url = urljoin(url, element.get('href'))  
    print(absolute_url, element.text)

这段代码的部分输出如下：

https://www.python.org/ Python  
https://www.python.org/psf-landing/ PSF  
https://www.python.org/docs/ Docs  
https://www.python.org/pypl/ PyPI  
https://www.python.org/jobs/ Jobs  
https://www.python.org/community-landing/ Community

动态加载的数据爬取：Selenium

在许多现代的网页中，数据可能不是在页面加载时一次性加载的，而是通过JavaScript在用户与页面交互时动态加载的。这时，我们可能需要使用另一个工具：Selenium。

from selenium import webdriver  
  
driver = webdriver.Firefox()  
driver.get('https://www.python.org/')  
  
element = driver.find_element_by_css_selector('div.top-bar > ul > li > a')  
print(element.text)

这段代码使用Selenium模拟浏览器行为，获取JavaScript动态加载的数据。在这个例子中，我们只获取了第一个链接的文本，实际使用时，你可能需要根据需求进行更复杂的操作。

爬虫代理

使用代理，可以帮助我们隐藏自己的真实IP地址，从而避免因爬取同一网站过多数据而被封IP。下面是一段简单的使用代理的代码：

proxies = {  
    "http": "http://10.10.1.10:3128",  
    "https": "http://10.10.1.10:1080",  
}  
  
response = requests.get("https://www.python.org/", proxies=proxies)

在这里，我们定义了一个代理字典，并将其传给requests.get()函数。这样，我们的请求就会通过代理服务器发送，从而隐藏了我们的真实IP地址。

异步爬虫：提升爬虫效率

在爬取大量数据时，我们通常需要进行多次HTTP请求，如果每次请求都等待前一次请求完成，那么效率将会非常低。此时，我们可以使用Python的异步IO库asyncio和aiohttp来提高效率。下面是一个简单的例子：

import asyncio  
import aiohttp  
  
async def fetch(session, url):  
    async with session.get(url) as response:  
        return await response.text()  
  
async def main():  
    async with aiohttp.ClientSession() as session:  
        html = await fetch(session, 'http://python.org')  
        print(html[:500])  
  
loop = asyncio.get_event_loop()  
loop.run_until_complete(main())

在这段代码中，我们首先定义了一个异步的fetch函数，用于发送HTTP请求并获取响应。然后，我们在main函数中创建一个HTTP会话，并使用这个会话来发送请求。最后，我们使用事件循环来运行main函数。

爬虫框架：Scrapy

虽然使用上述方法可以实现爬虫的基本功能，但在处理更复杂的爬虫任务时，我们可能需要一个更强大的工具。Scrapy是一个用Python实现的强大的爬虫框架，它为我们提供了许多高级功能，比如并发请求、数据处理和存储等。

下面是一个简单的Scrapy爬虫的例子：

import scrapy  
  
class MySpider(scrapy.Spider):  
    name = 'myspider'  
    start_urls = ['http://python.org']  
  
    def parse(self, response):  
        self.log('Visited %s' % response.url)  
        yield {  
            'url': response.url,  
            'title': response.css('title::text').get(),  
        }

在这段代码中，我们定义了一个继承自scrapy.Spider的爬虫类。这个类中定义了爬虫的名字、开始的URL和解析响应的方法。Scrapy将会自动为我们处理请求的发送和响应的接收，我们只需要关心如何从响应中提取数据即可。

自动化任务：定时爬虫

有时我们需要定时执行爬虫任务，比如每天爬取一次网站的数据。Python的schedule库可以帮助我们实现这一点：

import schedule  
import time  
  
def job():  
    print("I'm working...")  
  
schedule.every(10).seconds.do(job)  
  
while True:  
    schedule.run_pending()  
    time.sleep(1)

在这段代码中，我们首先定义了一个爬虫任务job。然后，我们使用schedule.every().seconds.do()方法设置任务的执行间隔。最后，我们使用一个无限循环来不断执行待运行的任务。

爬虫道德规范：遵守robots.txt

在进行爬虫时，我们需要尊重网站的robots.txt规则。robots.txt是一个存放在网站根目录下的文本文件，用于告诉爬虫哪些页面可以抓取，哪些页面不可以抓取。

Python的urllib.robotparser模块可以帮助我们解析robots.txt：

from urllib.robotparser import RobotFileParser  
  
rp = RobotFileParser()  
rp.set_url('http://www.python.org/robots.txt')  
rp.read()  
  
can_fetch = rp.can_fetch('*', 'http://www.python.org/')  
print(can_fetch)