今天在写爬虫。
为了减少提交请求的次数,决定不爬取详情页,只爬取列表页。
如图所示:
采集下html之后,尝试将每一个条目作为一个节点。
这样的话,就引申出一个问题:怎样使用xpath选取子节点呢?
如果使用双斜线的话,选出来的是【所有子节点】。举个例子:
这样选出来6个节点。
如果是使用单斜线,那么选出来的就是【直接子节点】。再举个例子:
这里选择的是ul下面的直接li子节点(共计5个),还有一个间接子节点没有选到,就是span标签下面还套着一个li,证明选择的确实是直接节点。
但有一个特例就是,如果我把那个span节点删去,是li套着li,那么这样就会选出来6个li节点,包括外面的li节点和里面的li节点。
如图所示: