(三)python(基于面向对象)使用Requests+Xpath提取HTML内容(妹子网MM图片)

xpath获取标签对本身含内容, 获取html内容

       之前一直使用BeautifulSoup(bs4)HTML标签内容,但是后面通过使用对比,当我们使用 html.parser 作为解析器时,BeautifulSoup 解析的耗时平均是 Xpath 的 1.8 倍+;当我们使用 lxml 作为解析器时,BeautifulSoup 解析的耗时虽有减少,但平均仍是 Xpath 的 1.5 倍+。加之引入IP代理池的时候,在使用BeautifulSoup 解析的情况下,程序竟然挂了,挂了。所以我们就改换Xpath解析。

话不多,开干

1.引入Xpath的三方库(python 3.0以后版本)

from lxml import html
etree=html.etree

引入其他库

import  requests
import os

#首先定义一个mzituData类
class  mzituData():
    # 初始化__init__方法
    def  __init__(self,headers):
        self.headers=headers

    # 请求网页数据
    def response_web(self, url):
        response = requests.get(url, headers=headers)
        response.encoding = "UTF-8"
        mm_html = response.text
        return  mm_

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值