Xpath简介
https://baike.baidu.com/item/XPath/5574064?fr=aladdin
哈哈哈
总之是小型查询语言
1.Xpath使用路径表达式在xml和html中导航
2.Xpath包含标准函数库
3.Xpath是一个w3c标准,通用性非常强
html是树结构的
Xpath基本语法:
https://www.w3.org/TR/xpath-functions/#func-abs
# -*- coding: utf-8 -*-
import scrapy
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['news.cnblogs.com']
start_urls = ['http://news.cnblogs.com/']
def parse(self, response):
# 一般别直接定位到a,因为a太常见了,往上找点class或id定位
# response一般返回一个selectorlist,内容比较杂所以加extract方法,返回一个结果list
# extract后的list最好别用getitem的方式调用,容易抛异常
# 当然还有 .extract_first("") 这种类似的方法获取列表第一个值, 括号内是找不到时的默认值
url = response.xpath('//div[@id="news_list"]//h2[@class="news_entry"]/a/@href').extract()
print(url)
pass