python爬虫04:Xpath基础和简单使用

Xpath简介

https://baike.baidu.com/item/XPath/5574064?fr=aladdin
哈哈哈
总之是小型查询语言
1.Xpath使用路径表达式在xml和html中导航
2.Xpath包含标准函数库
3.Xpath是一个w3c标准,通用性非常强

html是树结构的

Xpath基本语法:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

https://www.w3.org/TR/xpath-functions/#func-abs

# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['news.cnblogs.com']
    start_urls = ['http://news.cnblogs.com/']

    def parse(self, response):
        # 一般别直接定位到a,因为a太常见了,往上找点class或id定位
        # response一般返回一个selectorlist,内容比较杂所以加extract方法,返回一个结果list
        # extract后的list最好别用getitem的方式调用,容易抛异常
        # 当然还有 .extract_first("") 这种类似的方法获取列表第一个值, 括号内是找不到时的默认值
        url = response.xpath('//div[@id="news_list"]//h2[@class="news_entry"]/a/@href').extract()
        print(url)
        pass
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值