python爬虫04：Xpath基础和简单使用

最新推荐文章于 2024-03-06 09:46:42 发布

你哥同学

最新推荐文章于 2024-03-06 09:46:42 发布

阅读量462

点赞数

分类专栏：网络小偷之路文章标签： python xpath html

本文链接：https://blog.csdn.net/lafea/article/details/107776940

版权

网络小偷之路专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Xpath简介

https://baike.baidu.com/item/XPath/5574064?fr=aladdin
哈哈哈
总之是小型查询语言
1.Xpath使用路径表达式在xml和html中导航
2.Xpath包含标准函数库
3.Xpath是一个w3c标准，通用性非常强

html是树结构的

Xpath基本语法：
在这里插入图片描述

在这里插入图片描述

https://www.w3.org/TR/xpath-functions/#func-abs

# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['news.cnblogs.com']
    start_urls = ['http://news.cnblogs.com/']

    def parse(self, response):
        # 一般别直接定位到a，因为a太常见了，往上找点class或id定位
        # response一般返回一个selectorlist，内容比较杂所以加extract方法，返回一个结果list
        # extract后的list最好别用getitem的方式调用，容易抛异常
        # 当然还有 .extract_first("") 这种类似的方法获取列表第一个值, 括号内是找不到时的默认值
        url = response.xpath('//div[@id="news_list"]//h2[@class="news_entry"]/a/@href').extract()
        print(url)
        pass

你哥同学

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫04：Xpath基础和简单使用

Xpath简介https://baike.baidu.com/item/XPath/5574064?fr=aladdin哈哈哈总之是小型查询语言1.Xpath使用路径表达式在xml和html中导航2.Xpath包含标准函数库3.Xpath是一个w3c标准，通用性非常强html是树结构的Xpath基本语法：https://www.w3.org/TR/xpath-functions/#func-abs...
复制链接

扫一扫

专栏目录