使用 Selenium 和 Python 抓取 CSDN 博客所有文章附源码

LIY若依

已于 2024-08-03 22:57:11 修改

阅读量1.7k

点赞数 5

文章标签： python 数据分析开发语言

于 2024-08-03 20:38:11 首次发布

本文链接：https://blog.csdn.net/m0_74972192/article/details/140896510

版权

在这篇博客中，我将向大家展示如何使用 Selenium 和 Python 来抓取 CSDN 博客的文章链接。Selenium 是一个强大的工具，可以自动化浏览器操作，而 Python 则是一个非常适合进行数据抓取的编程语言。

准备工作

在开始之前，我们需要确保已经安装了以下工具：

Python：可以从 Python 官方网站下载并安装。
Selenium：可以通过以下命令安装：
```
pip install selenium
```
Chrome 浏览器：确保已经安装了 Chrome 浏览器。
ChromeDriver：下载与 Chrome 浏览器版本匹配的 ChromeDriver，并将其路径添加到系统环境变量中。可以从 ChromeDriver 官方网站下载。

代码解释

设置 Chrome 驱动器：我们使用 Options 类来设置 Chrome 驱动器的选项，使其在无头模式下运行（即不显示浏览器窗口）。
创建 Chrome 浏览器实例：使用 webdriver.Chrome 创建一个新的 Chrome 浏览器实例，并应用我们设置的选项。
循环遍历页面：我们使用一个循环来遍历指定范围内的页面。在每次循环中，用户需要输入博客用户 ID，然后程序会构建目标 URL 并让浏览器打开该页面。
查找并提取链接：我们使用 find_elements 方法查找页面中的所有 h4 标签，并在每个 h4 标签中查找 a 标签。然后，我们提取 a 标签的 href 属性和文本内容，并打印出来。
关闭浏览器：最后，我们使用 driver.quit() 关闭浏览器实例。

代码实现

以下是完整的代码示例：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

# 设置Chrome驱动器
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 创建一个新的Chrome浏览器实例
driver = webdriver.Chrome(options=chrome_options)

# 目标网页的URL
for a in range(1, 3):  # 修改这里
    keyword = input('请输入博客用户ID:')
    url = f'https://blog.csdn.net/{keyword}/article/list/{a}'
    driver.get(url)
    # 让浏览器打开目标网页

    # 查找所有的h4标签
    h4_tags = driver.find_elements(By.TAG_NAME, 'h4')

    # 遍历所有的h4标签
    for h4 in h4_tags:
        # 找到所有的a标签
        a_tags = h4.find_elements(By.TAG_NAME, 'a')
        for a_tag in a_tags:
            # 获取a标签的href属性
            href = a_tag.get_attribute('href')
            # 获取a标签的文本内容
            text = a_tag.text.strip()
            print(f'链接: {href}, 文本: {text}')
# 关闭浏览器
driver.quit()