问题描述
在抓取豆瓣电影时,电影的导演、编剧等都可以顺利的抓取下来。当抓取主演时,却抓取不到。
解决办法
当时以为主演这些数据是通过js动态加载出来的,但是利用抓包工具抓取时,发现并不是。然后查看网页源代码
发现源码里少了一对span 标签,所以xpath规则从
./span[3]/span[2]/span/a/text()
修改为
./span[3]/span[2]/a/text()
这样,就可以抓取到主演的数据了。
在抓取豆瓣电影时,电影的导演、编剧等都可以顺利的抓取下来。当抓取主演时,却抓取不到。
当时以为主演这些数据是通过js动态加载出来的,但是利用抓包工具抓取时,发现并不是。然后查看网页源代码
发现源码里少了一对span 标签,所以xpath规则从
./span[3]/span[2]/span/a/text()
修改为
./span[3]/span[2]/a/text()
这样,就可以抓取到主演的数据了。