python3爬取站长素材简历模板详解

目标:爬取站长素材中网页中的免费简历模板

前言:

——最近几天天气太冷,懒得写那么多,所以直接找到其中一个下载链接,然后写一个教程!如果需要下载多页内容数据,这里建议自己去补充代码,你可以使用“bs4”,“正则”或者“xpath”都可以。
—— 看到不少人说站长素材网站是收费才能下载……,其实还是免费的只是前一列如果下载需要收费而已,后面的都是免费呢!如下图所示哦!

图例1:
在这里插入图片描述

除了红色框里面的点进去是收费的后面的其实都是可以免费下载的!

# 导入网络请求库requests
import requests
# 程序入口
if __name__ == "__main__": 
    # 封装请求头参数
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.57'}
    # 封装url
    url="https://downsc.chinaz.net/Files/DownLoad/jianli/202101/jianli14393.rar"
    # 发起请求
    response = requests.get(url=url,headers=headers)
    # 打印一下状态码,如是200表示请求成功!
    print(response.status_code)
     # 打印一下requests返回的编码方式
    # print(response.encoding) 
    # 自动获取网页编码方式(如果出现乱码,推荐使用自动获取,这里因为我们直接向rar下载url发送请求,所以不需要管编码对不对!)
    # print(response.apparent_encoding) 
    # 获取相应数据
    response_data = response.content
    # # 数据存储(记得为二进制方式写入!)
    with open('adi.rar','wb') as adi_data:
        adi_data.write(response_data)
print('写入完成')
print('已end程序')
# 退出程序以免占用后台!
exit()

以上是个人练习经验总结!

温馨提示:

收费内容过滤办法:可以利用requests发送请求之后如果成功返回的状态码,如果等于200表示请求成功;如果不等于200,表示下载失败(欧了个欧)可以重新继续向下一个url发送请求哦!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值