python 如何爬取审查元素中Elements里有的元素，而源代码里没有的标签？

最新推荐文章于 2024-06-20 17:44:19 发布

腾阳

最新推荐文章于 2024-06-20 17:44:19 发布

阅读量3.6w

点赞数 2

分类专栏：学习python我所遇到的坑以及解决方法文章标签：正则表达式 python

本文链接：https://blog.csdn.net/weixin_41931602/article/details/81711190

版权

53 篇文章 9 订阅

订阅专栏

在这里我们可以看到，这个网站的新闻页面的作者，发布时间那一栏的标签在审查元素的Elements里有的元素，而源代码里却没有，如果单纯的使用xpath或者css无法匹配解析出想要的信息。

并且我们可以看到这个元素是使用JavaScript进行渲染的，在源代码中的开头我们可以看到以下这张图片的代码：

解决方案有很多，接下来我们来看看

方法1：正则表达式

在这推荐一个验证正则表达式的网站：http://tool.oschina.net/regex

因此这里举一个例子，解析代码是这样的：

news_author = response.xpath('//script').re('v.{2}\ss.{4}e\s=\s\"[\u4e00-\u9fa5]+\"')[0][13:].replace('"','')

其他方法后续再补充

关注

专栏目录