之前在python爬虫中一直用正则表达式进行页面分析,后来遇到页面分析中有中文,用正则表达式就太麻烦了,所以改用简单一点的xpath。
在学习过程中难免遇到一些问题,就在这边总结一下吧。
1. xpath括号中双引号会报错
link=selector.xpath('//*[@id="feedlist_id"]/li/div/div[1]/h2/a/@href')
上面代码是正确的,下面是错误的
link=selector.xpath("//*[@id="feedlist_id"]/li/div/div[1]/h2/a/@href")
仔细观察会发现,上面代码,xpath后面括号中用单引号包含xpath语句,而下面代码是双引号包含xpath语句。
因为之前在python中,其实大多时候是不分双引号和单引号的,但是这次不行,我使用双引号会报错invalid syntax(无效语法)。