selenium获取百度头条热点

最新推荐文章于 2025-03-11 14:16:00 发布

原创最新推荐文章于 2025-03-11 14:16:00 发布 · 444 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#selenium #chrome #python

这段代码展示了如何使用Python的Selenium库打开浏览器，访问百度主页并搜索'vivo'，然后滚动页面抓取新闻。之后，无界面模式下打开百度头条热点，通过XPath获取并打印前10条热点新闻的标题。

from selenium import webdriver
from time import sleep
#打开浏览器和百度页面

wb = webdriver.Chrome()

# wb.set_window_size(1280,720)#设置窗口大小

# wb.set_window_position(380,200)

# wb.maximize_window()#最大化窗口

wb.get(“https://baidu.com”)

#在停留两秒后打开百度新闻

wb.implicitly_wait(5)

wb.find_element_by_id(‘kw’).send_keys(‘vivo’)

wb.find_element_by_id(‘su’).click()

# js=“var q=document.documentElement.scrollTop=10000”

# wb.execute_script(js) #执行js脚本实现滚动页面（1）

sleep(1)

JS=“window.scrollTo(10000,document.body.scrollHeight)”#执行js脚本实现滚动页面（2）

wb.execute_script(JS)

sleep(1)

wb.quit()

###获取百度头条热点
#打开浏览器和网页
options=webdriver.ChromeOptions()
options.set_headless()#无浏览界面,无窗口模式
dr=webdriver.Chrome(options=options)
dr.get(‘https://top.baidu.com/’)

#进行 xpath 整合
for i in range(1,10):
xpath=‘//[@id=“sanRoot”]/main/div[1]/div[1]/div[2]/a[%s]/div[2]/div[2]/div/div’%i
if i==1:
xpath='//[@id=“sanRoot”]/main/div[1]/div[1]/div[2]/a[%s]/div[1]/div[2]/div/div’%i
print(dr.find_element_by_xpath(xpath).text)
dr.quit()