【代码】西安公交出行（实时）信息爬取（Selenium方式 / Ajax方式）

最新推荐文章于 2023-05-24 14:54:30 发布

azach64

最新推荐文章于 2023-05-24 14:54:30 发布

阅读量2k

点赞数 3

本文链接：https://blog.csdn.net/C_Python_/article/details/88654075

版权

本文介绍了如何使用Selenium和Ajax方式抓取西安公交出行的实时信息。通过分析网页请求，发现关键信息由一个Post请求生成，随后通过Get请求填充到页面。通过研究响应数据和回调函数，揭示了获取所需信息的流程，并提供了尝试直接请求的思路。

摘要由CSDN通过智能技术生成

信息来自于西安公交出行信息服务网
Selenium方式，基本不到10秒，还是有点慢。

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.keys import Keys
import time

t1 = time.time()
# 打开西安公交出行信息服务网
driver = webdriver.Chrome()
driver.get("http://124.115.171.252:9076")

# 找到实时查询按钮，输入40路
driver.find_element_by_id("RuntimeLine").click()
driver.find_element_by_id("RuntimeLine").send_keys("40路")

# 等待，点击查询结果下拉框
time.sleep(0.5)
e = driver.find_element_by_class_name("ac_results")
ActionChains(driver).move_to_element_with_offset(e, 100, 20).click().perform()
driver.find_element_by_id("btnRuntime").click()

# 向下移动页面
ActionChains(driver).send_keys(Keys.DOWN).send_keys(Keys.DOWN) \
    .send_keys(Keys.DOWN).send_keys(Keys.DOWN).send_keys(Keys.DOWN).send_keys(Keys.DOWN) \
    .send_keys(Keys.DOWN).send_keys(Keys.DOWN).send_keys(Keys.DOWN) \
    .send_keys(Keys.DOWN).send_keys(Keys.DOWN).send_keys(Keys.DOWN) \
    .send_keys(Keys.DOWN).send_keys(Keys.DOWN).perform()

# 获取页面元素
html = driver.find_element_by_xpath("//*").get_attribute("outerHTML")
print(html)

driver.close()
print(time.time() - t1)

Ajax方式：
分析如下:
我们想要的实时信息内容是这样的：
在这里插入图片描述
“花里胡哨"的实时公交信息，在class="cuton_12"里，但他只不过是个大点的div，可以想象，它是在用户输入公交线路号码，点击查找按钮后，从服务器传输过来的：

有前端基础的同学都知道，id选择器的权值100，几乎是最强的，那么我们为什么不直奔这个id，看看发生了什么呢。
打开network，搜索这个id="div_runtime"的div，发现主页js代码还是很简单的，get请求，带上了两个参数fLine和 timestamp，请求成功后，datas直接插入到了div中：
在这里插入图片描述
好了，懒得重写的话，我们就用Python的execjs模块执行一下Date.parse(new Date());就可以得到timestamp，那问题就是fLine
我们冷静一下，回过头来，看看请求的过程发生了什么事情，在网页中，输入40路，点击搜索按钮，我们看到了两个ajax请求：
在这里插入图片描述
这两个难道是同时请求的？我们查看加载时间，240ms以前，是这个post请求。
在240ms以后，可以想象，get请求很可能基于来自于post请求所带来的某个条件满足

最低0.47元/天解锁文章

azach64

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【代码】西安公交出行（实时）信息爬取（Selenium方式 / Ajax方式）

信息来自于西安公交出行信息服务网，selenium基本不到10秒，还是有点慢，等一下看看能不能直接postfrom selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.keys import Keysimport timet1 = time....
复制链接

扫一扫