selenium+webDriver+headless Chrome实现python爬虫

最新推荐文章于 2024-07-16 11:04:39 发布

ldq_sd

最新推荐文章于 2024-07-16 11:04:39 发布

阅读量273

点赞数

分类专栏： python

我的网站：https://www.mihaoyun.com

本文链接：https://blog.csdn.net/ldq_sd/article/details/111463568

版权

python 专栏收录该内容

47 篇文章 2 订阅

订阅专栏

设置浏览器的无界面状态可提高爬虫速度，在代码文件中进行设置即可。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument(’–headless’)
chrome_options.add_argument(’–disable-gpu’)
driver = webdriver.Chrome(chrome_options=chrome_options)
编写代码

from selenium import webdriver
import csv
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument(’–headless’)
chrome_options.add_argument(’–disable-gpu’)
driver = webdriver.Chrome(chrome_options=chrome_options)
url = ‘http://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0’
#准备好存储歌单的csv文件
csv_file = open(“playlist.csv”,‘w’,newline=’’)
writer = csv.writer(csv_file)
writer.writerow([‘标题’,‘播放数’,‘链接’])
#解析每一页，直到‘下一页’为空
while url != ‘javascript:void(0)’:
#用webDriver加载页面
driver.get(url)
#切换到内容的iframe
driver.switch_to.frame(“contentFrame”)
#定位歌单标签
data = driver.find_element_by_id(“m-pl-container”).
find_elements_by_tag_name(“li”)
#解析一页中的所有歌单
for i in range(len(data)):
#获取播放数
nb = data[i].find_element_by_class_name(“nb”).text
if ‘万’ in nb and int(nb.split(“万”)[0]) > 500 :
msk = data[i].find_element_by_css_selector(“a.msk”)
writer.writerow([msk.get_attribute(‘title’),nb,msk.get_attribute(‘href’)])
url = driver.find_element_by_css_selector(“a.zbtn.znxt”).
get_attribute(“href”)
csv_file.close()
运行结果
在这里插入图片描述