一. 标签属性值的提取
- href的值URL的提取:这是最常见的,我们要进入下一页、或是打开内容页……都少不了URL值,如下面这段HTML,我们来提取一下里面的URL
<ol class="page-navigator"> <li class="current"><a href="http://lab.scrapyd.cn/page/1/">1</a></li> <li><a href="http://lab.scrapyd.cn/page/2/">2</a></li> <li><a href="http://lab.scrapyd.cn/page/3/">3</a></li> <li><a href="http://lab.scrapyd.cn/page/4/">4</a></li> </ol>
这其实是我们爬虫实验室的分页,如果我们要爬取下一页,我们该如何提取URL呢?提取属性我们是用:“标签名::attr(属性名)”,比如我们要提取url表达式就是:a::attr(href)&#x