Selenium爬虫 -- 无界面爬取：无头模式及其他参数

最新推荐文章于 2024-07-04 02:37:03 发布

啦啦啦___123

最新推荐文章于 2024-07-04 02:37:03 发布

阅读量1.6k

点赞数

分类专栏： Debug记录、编程小技巧 Spider-爬虫文章标签：可视化 python linux selenium 爬虫

本文链接：https://blog.csdn.net/hhr603894090/article/details/108931941

版权

本文介绍了如何在Linux服务器上利用Selenium的无头模式进行无界面爬取，以实现更隐蔽、高效的网页抓取。在从Windows迁移到Linux的过程中，去掉了爬虫的界面依赖，保持了爬虫的运行效果。

摘要由CSDN通过智能技术生成

之前开发的爬虫是在Windows系统开发和测试爬取效果的，现在需要放到Linux服务器上，所以把界面去掉。

使用Selenium的无头模式即可。

Selenium可以有效地防止被检测为爬虫。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

ch_options = Options()
ch_options.add_argument("--headless")  # => 为Chrome配置无头模式
# ch_options.add_argument('--no-sandbox')
# ch_options.add_argument('--disable-gpu')
# ch_options.add_argument('--disable-dev-shm-usage')

# 在启动浏览器时加入配置
browser = webdriver.Chrome(chrome_options=ch_options)
# browser = webdriver.Chrome()

browser.get('https://blog.csdn.net/hhr603894090')
ts = browser.find_elements_by_xpath('//*[@id="articleMeList-blog"]/div[2]/div[1]/h4/a')
for ats in ts:
    print(ats.text)

# chrome_options = Options()
# chrome_options.add_