【爬虫】关于xpath解析标签出现的一些问题及其解决方法 2021.3.4

最新推荐文章于 2023-10-10 18:40:20 发布

asdasdasdsa123

最新推荐文章于 2023-10-10 18:40:20 发布

阅读量1.4k

点赞数

分类专栏：爬虫练手日志文章标签： python

本文链接：https://blog.csdn.net/qq_45441648/article/details/114380366

版权

爬虫练手日志专栏收录该内容

2 篇文章 0 订阅

订阅专栏

xpath

1.xpath解析路径的时候，标签下标无法跟变量

xpath解析路径的时候，标签下标无法跟变量

如：

count=1
url_text=browser.find_element_by_xpath('//tbody/tr[count]/td[1]/a/@href')

无法成功

解决方法：

直接把所有的元素以形式储存下来，然后用list的下标即可获取，如：

count=str(input("please input a number"))
url_text=browser.find_element_by_xpath('//tbody/tr/td[1]/a/@href')
url=url_text[count]

2.xpath解析文本的时候，遇到br就结束提取的问题

xpath解析文本的时候，遇到

<br>

就结束了，无法读取下面所写的文本内容

就算用如：

content=str(tree_son.xpath('//div[@id="content"]/descendant-or-self::text()')[0])

的方法也不能实现对文本的抓取

解决方法：建议使用beautifulsoup+正则表达式提取

findcontent=re.compile(r'id="content">(.*?)推荐',re.S)
for item in bs.find_all("div",id="content"): 
            content=re.findall(findcontent,str(item))[0]

asdasdasdsa123

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
【爬虫】关于xpath解析标签出现的一些问题及其解决方法 2021.3.4

xpath1.xpath解析路径的时候，标签下标无法跟变量xpath解析路径的时候，标签下标无法跟变量如：count=1url_text=browser.find_element_by_xpath('//tbody/tr[count]/td[1]/a/@href')无法成功解决方法：直接把所有的元素以形式储存下来，然后用list的下标即可获取，如：count=str(input("please input a number"))url_text=browser.find_elemen
复制链接

扫一扫