requests使用xpath返回空列表

最新推荐文章于 2023-09-15 13:46:01 发布

凤舞无夜

最新推荐文章于 2023-09-15 13:46:01 发布

阅读量1.1k

点赞数

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_42912498/article/details/103671356

版权

python爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在浏览器上使用xpath可以提取到想要的内容，但将xpath放入到代码中却返回空列表。将网页html抓下来后也没发现结构发生变化或者tbody之类的，于是采用正则表达式来提取内容。

想要提取的a.html:

代码如下：

with open("a.html","r") as r:
    html = r.read()
pattern = re.compile(r"<span>#(.*?) in.+?<a href='(.*?)'>(.*?)</a>", re.S)
res = re.findall(pattern, html)
print(res)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

凤舞无夜

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬取数据返回空列表_Python用xpath爬取数据返回空列表解决

weixin_39918043的博客

11-29

1240

笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段前言：首先需要查看该网页是否可以爬取，通过在URL后加入/robots,txt可以查看。①tbody问题笔者通过谷歌浏览器选取上图红框内容的xpath如下：from lxml import etreeimport requestsurl = 'https://aaai.org/ocs/...

requests + xpath简单示例

Stealth_pain的博客

02-04

1313

几个简单的小示例豆瓣电影 TOP 250 获取豆瓣电影 TOP 250 的电影信息并保存到 MongoDB 中，这里使用的数据库名为 movies，集合名为 douban。可以使用自己定义的数据库和集合，以下几个示例相同。 import re import pymongo import requests from lxml import etree def get_page(url): ...

参与评论您还未登录，请先登录后发表或查看评论

使用Xpath获取到了空列表

weixin_44998052的博客

07-12

1078

在学习爬虫的时候准备爬取天天基金网的数据结果发现拿到了页面xpath解析出来却是"[]" 错误代码： /html/body/div[2]/div[8]/div[3]/div[2]/div[3]/div/div[1]/table/tbody/tr[1]/td[1] 正确代码： Jname = html.xpath(’/html/body/div[2]/div[8]/div[3]/div[2]/div[3]/div/div[1]/table/tr[1]/td[1]/text()’) 把tbody去掉就对了

xpath定位元素返回列表为空

Liubingzhe

01-23

2万+

在爬取一些网站的时候，结合from lxml import etree库中etree.HTML()可以构造一个符合xpath语法的html文本，为了方便，我们可以F12-copy xpath获取该元素在网页中的xpath语法，但是其复制的为绝对路径，在某些时候是无法定位出元素的。 HTML（text， parser = None， base_url = None）从字符串常量解析HTML文档。...

python爬虫requests返回网页内容为空_python爬虫之requests的基本使用

weixin_39620001的博客

11-20

251

简介Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，Requests它会比urllib更加方便，可以节约我们大量的工作。一、安装pip快速安装pip install requests二、使用1、先上一串代码import requestsresponse = requests.get("https://www.baidu.c...

爬虫使用xpath解析网页出现空列表的终极解决方案！

最新发布

termiliter的博客

09-15

1720

点击检查页面的网络，可以看见不同的url传输的数据，来进行异步加载，这种技术在视频网站应用更广。，此时就需要读取不同的url较为复杂，本文不赘述，以后有空发文深刻探讨。一. 查看自己的xpath是否正确：可以通过网页检查（f12）然后右键复制xpath,最好两个都试试也就是完整的xpath又是会犯病，注意一点就是：当xpath出现。我知道这是一个很小的问题，从一开始就知道，但还是解决了一天，为了避免有别人也踩坑，给出。通俗说也就是一个网页可以分开加载，造就不同的连接，其实是不存在的，例如。

Python用xpath爬取数据返回空列表解决 python爬虫，关于使用xpath写爬虫获取不到内容，获取到空列表的解决方案

weixin_45437533的博客

11-26

1万+

可能的情况： 1、url的问题 2、xpath路径问题 3、网页标签class，id属性等一定要注意看后面有没有空格关于xpath路径问题之前在做的爬虫都是用的xpath去获取内容，又想偷懒，所以就直接在源码那里直接复制路径，然后就很容易踩雷了（我算是踩了很多坑了，不知道有没有小伙伴和我一样踩过这样的坑）：此时可能会得到如下路径： /html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span 然后跑开始爬虫，结果...

python xpath爬取新闻标题_Python利用requests和xpath爬取网页内容过程

weixin_39611331的博客

12-09

1481

1.xpath()函数的使用-之后会练习使用find_all()函数需要安装lxml库，xpath()方法放回的结果是一个列表1.1 XPath 常用规则例子：这是一个 XPath 规则，代表的是选择所有名称为 title，同时属性 class 的值为 eng 的节点，后面会通过 Python 的 lxml 库，利用 XPath 进行 HTML 的解析。1.2 获取文本1.3 要提取的信息有大量空...

python使用requests+xpath爬取小说并下载

Cheng.py的博客

08-26

719

python爬虫——使用requests库和xpath爬取猎聘网职位详情

Jerry_Chang31的博客

04-29

3643

最近闲来无事，使用python的requests库和xpath库爬取了猎聘网的招聘信息。因为只是为了练习，并没有限定职位、地域等信息。一、页面分析 1.职位列表页面分析点击进入猎聘网页面如下图所示：上面是职位筛选条件，下面是相应页码点击不同的页码，查看其URL：第一页URL： https://www.liepin.com/zhaopin/?init=-1&headckid=35...

利用xpath爬取贴吧时返回的列表为空的问题解决方法

热门推荐

weixin_42255200的博客

07-05

3万+

最近在爬取贴吧过程中发现一个小问题，就是爬取好网页HTML信息后，进一步利用xpath爬取站内需要的链接时，返回结果一直是空列表，代码检查了4、5遍一点问题都没有，但就是返回空列表class Spider(object): def extract_url(self,html): content=etree.HTML(html) result=content.xpath('//...

Python用requests库爬取网页内容，返回为‘’（为空）的解决办法。

qq_38796636的博客

07-09

2万+

首先介紹一下我們用360搜索派取城市排名前20。我们爬取的网址：https://baike.so.com/doc/24368318-25185095.html 我们要爬取的内容： html字段： robots协议：现在我们开始用python IDLE 爬取 import requests r = requests.get("https://baike.so.com/doc/2436831...

使用requests包爬取数据时，返回空的数据

i_lovepython的博客

05-30

5340

使用requests包爬取数据时，返回空的数据原因分析：服务器会识别我们是爬虫，所以导致返回数据为空解决办法：模拟浏览器，伪装成浏览器访问服务器模拟浏览器：使用浏览器的User-Agent 这时，有的同学就要问了，怎么查看浏览器的User-Agent，这里就先展示一下如何查看浏览器的User-Agent：以谷歌浏览器为例： 1.在地址栏输入about://version如图所示： 2.将红框中的数据复制出来： 3.代码中使用requests库访问服务器时带上User-Agent数据： header

requests到xpath

05-11

可以使用Python的requests库和lxml库来实现从网页中提取数据的功能。以下是一个简单的例子： ```python import requests from lxml import etree url = 'http://example.com' response = requests.get(url) ...