Selenium 爬虫 Chrome 在后台运行

LIY若依

已于 2024-07-18 01:38:12 修改

阅读量125

点赞数 3

分类专栏： python 文章标签： python selenium 爬虫

于 2024-07-17 22:54:33 首次发布

本文链接：https://blog.csdn.net/m0_74972192/article/details/140507689

版权

在这篇文章中，我们将学习如何使用Python，Selenium和BeautifulSoup进行网络爬虫。我们将创建一个简单的爬虫，用于从酷狗音乐网站抓取歌曲信息。

工具和库

我们将使用以下工具和库：

Python：我们的编程语言
Selenium：一个用于网页自动化的工具，可以模拟用户的浏览行为
BeautifulSoup：一个用于解析HTML和XML文档的Python库
urllib：一个用于处理URL的Python模块

完整代码如下：

import urllib.parse

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# 设置Chrome选项
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 初始化浏览器对象
driver = webdriver.Chrome(options=chrome_options)

# 添加headers，模拟浏览器请求
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53