比如我想取类似下面的博客里的所有标题
代码如下:
items = html.xpath(’//*[@id=“mainBox”]/main/div[2]/div’)
print(len(items))
for item in items:
#获取公司名字
cname = item.xpath(’//h4/a/text()’)
print(cname)
if len(cname) > 0:
title = cname[1].strip()
print(title)
结果一直没有拿到标题,最后检查了好几次,发现是//h4/a/text(),h4前面的双斜杠不要加上!加上后,会以任意标签为根节点,从h4开始寻找标题。这样就会找到所有的标题!
去掉//后,表示以items为父节点,以此遍历里面的子节点。
这是一个很小的问题,但是由于长期没有写xpath,以至于犯了以上错误!以后谨记!