Python爬虫：xpath，cookie都正确仍然无法爬取需要的内容解决方法之一

最新推荐文章于 2024-09-13 19:11:14 发布

在搬砖的土豆

最新推荐文章于 2024-09-13 19:11:14 发布

阅读量2.3k

点赞数 2

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_71242960/article/details/128420553

版权

本文章作为中级文章就不介绍python爬虫需要用到的库以及hearders的设置了，哈哈并非博主傲娇，想给猿猿们节省浏览文章的时间！

可以看下面的代码，本文章用重庆大学官网的某个页面网址举例。下面代码的功能是通过标签的xpath路径爬取该页面内容的url。网页的url是:http://ae.cqu.edu.cn/szdw.htm（学校教师展示）,大家可以在浏览器打开该页面，我就不把页面内容在文章中展示了。

打开页面后，调出开发者页面（F12）,可以看见页面的html代码，把指针点击页面内容中可以跳转的文本链接（这里是教师的姓名），这样就可以出现该链接,a标签.点击右键复制a标签里链接的完整xpath.全部内容如下：

（复制粘贴xpath中含有tbody标签，需要删掉tbody标签，下面代码中//中就是因为把中间tbody删掉了）

import requests
from lxml import etree
headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
           "Cookie":'JSESSIONID=53E38B6D14BD50D9BF509CC2AC0DB7CE'
           }

url = "http://ae.cqu.edu.cn/szdw.htm"            #url网址
res = requests.get(url,headers=headers)
text &