python爬虫项目批量下载ppt(用xpath)

import requests
from lxml import etree
import os

url = "https://sc.chinaz.com/ppt"
headers = {
    "headers": "Mozilla/5.0 "
}

r = requests.get(url, headers=headers)
r.encoding = 'utf8'
tree = etree.HTML(r.text)
url_list = tree.xpath("//div[@class='bot-div']")

if not os.path.exists('./resume'):
    os.mkdir('./resume')

for u in url_list:
    #解析出全部的ppt url
    ptt_url_href = u.xpath("./a/@href")[0]
    ptt_url_title = u.xpath("./a/@title")[0]
    title = f"{ptt_url_title}.pptx"
    ppt_url = f"https://sc.chinaz.com{ptt_url_href}"

    #再获得每个ppt url
    r1 = requests.get(ppt_url, headers=headers)
    r1.encoding = 'utf8'
    tree_1 = etree.HTML(r1.text)
    ppt = tree_1.xpath("//div[@class='download-url']/a/@href")[0]
    print(ppt)

    # 再下载ppt
    ppt_Data = requests.get(ppt, headers=headers).content
    with open(f"./resume/{title}", 'wb') as f:
        f.write(ppt_Data)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值