疯狂的爬虫案例（4）文末附源码

最新推荐文章于 2024-05-21 00:00:00 发布

svygh123

最新推荐文章于 2024-05-21 00:00:00 发布

阅读量217

点赞数 10

文章标签：爬虫 python 网络爬虫网络

本文链接：https://blog.csdn.net/svygh123/article/details/138354014

版权

主题：使用Python+Selenium模拟点击微博网里的热搜榜获取排名前10的新闻数据

首先Selenium是一个用于自动化Web应用程序测试的工具，它支持各种浏览器，并允许我们通过编程来模拟用户操作。

步骤一：环境准备

安装Python：确保你的电脑上已经安装了Python。
安装Selenium：使用pip安装Selenium库。在命令行中输入pip install selenium。
下载浏览器驱动：Selenium需要浏览器驱动来与浏览器进行交互。根据你的浏览器类型（如Chrome、Firefox等），下载对应的驱动，并将其放置在Python脚本可以访问到的路径下，或者配置到系统环境变量中。

我运行的软件版本号如下：
python --version
Python 3.8.0

pip show selenium
Version: 4.20.0

chromedriver.exe -version
109.0.5414.74

步骤二：编写代码

2.1 导入必要的库：

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

2.2 启动浏览器并打开微博网页：

# 假设你使用的是Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://weibo.com/')

# 等待页面加载完成，这里只是一个简单的等待，实际应用中可能需要更复杂的等待逻辑
time.sleep(5)

2.3 定位热搜榜元素并点击：

# 定位热搜榜元素，这里需要根据微博的实际页面结构来定位
# 注意：由于网页结构可能会变化，这里只是示例，你需要根据实际情况来修改
hot_search_element = driver.find_element(By.XPATH,"//*[@title='热搜榜']")
hot_search_element.click()

# 等待热搜榜页面加载完成
time.sleep(3)

2.4 获取排名前10的新闻数据：

# 遍历列表，获取前10个热搜项的数据
for i in range(1,11):
    print(f'{i}.'+driver.find_element(By.XPATH,f"//*[@id='scroller']/div[1]/div[{i}]/div/div/div/div/div/div[1]/a").text)

2.5 关闭浏览器：

driver.quit() # 关闭浏览器，释放资源

步骤三：运行代码并检查结果

运行你的Python脚本，并查看输出结果。确保能够正确地获取到微博热搜榜排名前10的新闻数据。

注意：由于网页结构可能会变化，上述代码中的CSS选择器需要根据实际情况来修改。你可以使用浏览器的开发者工具来查找和验证CSS选择器。同时，由于微博的反爬虫机制，模拟点击和获取数据可能会受到一定的限制或干扰，因此在实际应用中可能需要采取一些额外的措施来应对。

四：完整代码

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 假设你使用的是Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://weibo.com')

# 等待页面加载完成，这里只是一个简单的等待，实际应用中可能需要更复杂的等待逻辑
time.sleep(5)

# 定位热搜榜元素，这里需要根据微博的实际页面结构来定位
# 注意：由于网页结构可能会变化，这里只是示例，你需要根据实际情况来修改
hot_search_element = driver.find_element(By.XPATH,"//*[@title='热搜榜']")
hot_search_element.click()

# 等待热搜榜页面加载完成
time.sleep(3)

# 遍历列表，获取前10个热搜项的数据
for i in range(1,11):
    print(f'{i}.'+driver.find_element(By.XPATH,f"//*[@id='scroller']/div[1]/div[{i}]/div/div/div/div/div/div[1]/a").text)
    
# 关闭浏览器
driver.quit()

运行结果：

1.xxx

2.xxx

......

10.xxx

xxx会根据实际内容输出。