利用Selenium爬取百度地图api数据

百度地图api为我们提供了建筑等的地理位置查询。但是不能批量获取诸如“地铁站”的地理位置信息。借助Selenium可爬取地理位置信息并保存到txt文件中。

# -*- coding:utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

#共37页进行爬虫
driver = webdriver.Firefox()
driver.get('http://api.map.baidu.com/lbsapi/getpoint/index.html')
time.sleep(5)
element1 = driver.find_element_by_link_text("更换城市")
element1.click()
element2 = driver.find_element_by_link_text("上海")
element2.click()
time.sleep(5)
element3 = driver.find_element_by_id("localvalue")
element3.send_keys("地铁站")
element3.send_keys(Keys.RETURN)     #此步为关键格式!!!这样html内容才会改变
time.sleep(2)

element = ''
for i in range(37):
    element += driver.find_element_by_id("txtPanel").text
    loc = driver.find_element_by_link_text("下一页")
    loc.click()
    time.sleep(5)
    i += 1

file_handle = open("C:\\Users\\metro.txt",mode = 'w+')
file_handle.write(element)
file_handle.close()

 

Selenium 是一种强大的开源自动化工具,用于Web应用的测试、数据抓取以及用户模拟操作等。下面是一个使用Python实现的基本示例,展示如何利用Selenium爬取百度首页内容: 首先,你需要安装Selenium库和相应的浏览器驱动(例如ChromeDriver)。在命令行中输入: ```bash pip install selenium ``` 然后下载对应浏览器版本的ChromeDriver,并将其添加到系统PATH环境变量中。 接下来是具体的代码实现: ```python from selenium import webdriver from selenium.webdriver.common.by import By # 初始化webdriver,这里我们以谷歌浏览器为例 driver = webdriver.Chrome() try: # 访问百度网页 driver.get('https://www.baidu.com') # 等待页面加载完成 driver.implicitly_wait(5) # 找到搜索框元素并输入关键词“自动化测试” search_input = driver.find_element(By.ID, 'kw') search_input.send_keys('自动化测试') # 搜索按钮定位点,通过CSS选择器找到提交按钮元素并点击 submit_button = driver.find_element(By.CSS_SELECTOR, '#su') submit_button.click() # 获取返回结果列表的第一个标题 result_title = driver.find_element(By.XPATH, '//h3/a').text print(f"搜索结果第一个标题: {result_title}") finally: # 最终一定要关闭浏览器窗口以释放资源 driver.quit() ``` ### 关键步骤解释: 1. **导入模块**:`selenium` 和 `webdriver.chrome` 分别代表了整个Selenium框架和特定于Chrome浏览器的驱动。 2. **初始化webdriver**:创建了一个WebDriver实例,这里是ChromeDriver实例。 3. **访问网站**:使用`.get(url)`方法打开指定URL。 4. **等待页面加载**:通过 `.implicitly_wait(5)` 来避免因为页面未完全加载而抛出异常。这里的数字表示最多等待5秒。 5. **查找元素**:使用各种方法如`find_element`来定位页面上的元素,比如搜索框和提交按钮。 6. **操作元素**:执行对元素的操作,比如向搜索框输入文本和点击按钮。 7. **提取信息**:获取页面上感兴趣的部分的信息,比如搜索结果的标题。 8. **结束程序**:最后一定要关闭浏览器窗口,这非常重要,以避免内存泄漏。 这个基本示例展示了如何使用Selenium爬取百度的简单流程,实际应用中可能需要更复杂的处理和错误处理机制。对于其他浏览器或者更复杂的需求,可以调整上述代码中的部分,如更改浏览器名称、修改XPath表达式等。 --- ## 相关问题: 1. 如何使用Selenium进行自动化测试? 2. 如何解决Selenium运行时遇到的WebDriver异常? 3. Selenium能否应用于爬取动态加载的内容?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值