为什么浏览器上xpath可以获取数据,python中无法获取

         偶尔我们在写爬虫的时候会遇到这样一个问题,在浏览器上写的xpath语法明明可以获得数据,但是到python里面,一模一样的xpath语法却无法得到数据,这个问题出现在哪里呢?

        【前提:自己写的xpath没有问题,能准确获取数据】

原因一:

        浏览器上的xpath是根据  浏览器解析了服务器返回过来的网页源码,两者可能存在一定差异,比如部分标签不一样。

【查看网页源码(在网页上右键,检查网页源码)】 

会发现网页源码的标签与浏览器解析的不太一样,此为正常现象:是因为浏览器解析了服务器返回过来的网页源码导致的,python获取的是此源码,非浏览器解析的结果【但是大多数情况下浏览器上与此源码一样】。

      如今的浏览器是非常智能的,如果HTML缺少些标签,也会帮助服务器返回过来的源码自动补全,导致标签上存在差异。

     获取方式:查看网页源码【或者从spyder里面复制出来content变量的内容<最准确>】,通过网页源码确定准确的标签以及属性。

原因二:

     数据是通过动态加载的,静态网页数据获取的一套在这里根本用不上。

     需要学习动态网页爬虫才能准确获取想要的数据。

公众号有更多干货分享哦~~

        

  • 6
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 可以使用`find_elements_by_xpath`方法获取多条xpath对应的数据。该方法返回一个列表,列表包含多个元素,每个元素对应一条xpath的结果。 以下是示例代码: ```python from selenium import webdriver # 打开浏览器 driver = webdriver.Chrome() # 打开网页 driver.get('https://www.baidu.com') # 获取多条xpath对应的数据 element_list = driver.find_elements_by_xpath("//div[@class='s-top-left']/a") for element in element_list: print(element.get_attribute('href')) # 关闭浏览器 driver.quit() ``` 上述代码获取了百度首页左上角的多个链接,将其打印出来。其,使用`find_elements_by_xpath`方法获取多条xpath对应的数据,将其存储在`element_list`变量,然后使用循环逐个获取元素的属性值。 ### 回答2: selenium可以通过使用find_elements_by_xpath方法获取当前网页多条xpath对应的数据。 find_elements_by_xpath方法返回一个列表,其包含了所有符合指定xpath的元素。通过遍历这个列表,可以逐个获取每个元素的数据。 假设需要获取一个网页所有h1标签的文本内容,可以使用以下代码: ```python from selenium import webdriver # 创建一个浏览器对象 driver = webdriver.Chrome() # 打开网页 driver.get("https://example.com") # 使用xpath表达式获取所有h1标签的元素 elements = driver.find_elements_by_xpath("//h1") # 遍历列表,获取每个元素的文本内容 for element in elements: print(element.text) ``` 在上述代码,我们先创建了一个Chrome浏览器对象,然后打开了一个网页。接下来使用find_elements_by_xpath方法获取了所有h1标签的元素,并将它们存储在一个元素列表。最后,通过遍历这个列表,使用element.text方法获取每个元素的文本内容,并打印输出。 通过这种方式,使用selenium可以方便地获取当前网页多个xpath对应的数据。 ### 回答3: 要使用Selenium获取当前网页多条XPath对应的数据,可以按照以下步骤操作: 1. 导入Selenium库:在Python,使用`import selenium`语句导入Selenium库。确保已经安装了Selenium和Webdriver。 2. 创建WebDriver对象:使用Selenium适合当前浏览器的WebDriver对象,比如ChromeDriver,创建一个WebDriver对象。 3. 打开网页:使用WebDriver对象的`get()`方法打开需要操作的网页,如`driver.get('https://example.com')`。 4. 查找元素:使用WebDriver对象的`find_elements_by_xpath()`方法查找XPath对应的元素,并将其返回为一个列表。 5. 遍历元素列表:对于返回的元素列表,使用`for`循环遍历每个元素,进行后续操作。 6. 提取数据:对于每个元素,使用相应的方法提取需要的数据。可以使用元素的`text`属性获取元素的文本内容,或者使用`get_attribute()`方法获取元素的属性值。 7. 存储数据:根据需要,将提取的数据存储到变量、列表、数据库或其他数据结构,以便后续使用。 8. 关闭浏览器:使用WebDriver对象的`quit()`方法关闭浏览器,释放资源。 示例代码如下: ```python from selenium import webdriver # 创建WebDriver对象 driver = webdriver.Chrome() # 打开网页 driver.get('https://example.com') # 查找元素 elements = driver.find_elements_by_xpath('//div[@class="example"]/span') # 遍历元素列表 for element in elements: # 提取数据 data = element.text # 存储数据 # ... # 关闭浏览器 driver.quit() ``` 以上就是使用Selenium获取当前网页多条XPath对应的数据的步骤。根据实际需求和网页结构,可以对代码进行适当修改和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值