【爬虫】关于xpath解析标签出现的一些问题及其解决方法 2021.3.4

xpath

1.xpath解析路径的时候,标签下标无法跟变量

xpath解析路径的时候,标签下标无法跟变量

如:

count=1
url_text=browser.find_element_by_xpath('//tbody/tr[count]/td[1]/a/@href')

无法成功

解决方法:

直接把所有的元素以形式储存下来,然后用list的下标即可获取,如:

count=str(input("please input a number"))
url_text=browser.find_element_by_xpath('//tbody/tr/td[1]/a/@href')
url=url_text[count]

2.xpath解析文本的时候,遇到br就结束提取的问题

xpath解析文本的时候,遇到

<br>

就结束了,无法读取下面所写的文本内容

就算用如:

content=str(tree_son.xpath('//div[@id="content"]/descendant-or-self::text()')[0])

的方法也不能实现对文本的抓取

解决方法:建议使用beautifulsoup+正则表达式提取

findcontent=re.compile(r'id="content">(.*?)推荐',re.S)
for item in bs.find_all("div",id="content"): 
            content=re.findall(findcontent,str(item))[0]
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值