（三）python（基于面向对象）使用Requests+Xpath提取HTML内容(妹子网MM图片）

最新推荐文章于 2024-05-27 09:45:56 发布

Xiaoyeforever

最新推荐文章于 2024-05-27 09:45:56 发布

阅读量712

点赞数 1

分类专栏： Xpath 文章标签： Xpath python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xiaoyeforever/article/details/103740609

版权

xpath获取标签对本身含内容, 获取html内容

之前一直使用BeautifulSoup(bs4)HTML标签内容，但是后面通过使用对比，当我们使用 html.parser 作为解析器时，BeautifulSoup 解析的耗时平均是 Xpath 的 1.8 倍+；当我们使用 lxml 作为解析器时，BeautifulSoup 解析的耗时虽有减少，但平均仍是 Xpath 的 1.5 倍+。加之引入IP代理池的时候，在使用BeautifulSoup 解析的情况下，程序竟然挂了，挂了。所以我们就改换Xpath解析。

话不多，开干

1.引入Xpath的三方库（python 3.0以后版本）

from lxml import html
etree=html.etree

引入其他库

import requests
import os

#首先定义一个mzituData类
class mzituData():
    # 初始化init方法
    def init(self,headers):
        self.headers=headers

    # 请求网页数据
    def response_web(self, url):
        response = requests.get(url, headers=headers)
        response.encoding = "UTF-8"
        mm_html = response.text
        return mm_

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
（三）python（基于面向对象）使用Requests+Xpath提取HTML内容(妹子网MM图片）

xpath获取标签对本身含内容, 获取html内容之前一直使用BeautifulSoup(bs4)HTML标签内容，但是后面通过使用对比，当我们使用 html.parser 作为解析器时，BeautifulSoup 解析的耗时平均是 Xpath 的 1.8 倍+；当我们使用 lxml 作为解析器时，BeautifulSoup 解析的耗时虽有减少，但平均仍是 Xpath 的 1.5...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。