Day1爬虫

本文介绍了使用Python的requests库进行网络数据请求的基础知识,包括创建虚拟环境、发送GET请求、设置编码、获取文本和二进制数据、处理JSON响应、添加请求头(如User-Agent和Cookie)、以及如何下载图片和音频文件。示例代码详细展示了每个功能的实现方法。
摘要由CSDN通过智能技术生成

Day1爬虫

request

python环境

  • 系统环境:通过安装python得到的
  • 虚拟环境:由程序员创建的,(可以创建多个,创建的前提是系统环境存在)
  • 创建虚拟环境的建议:
    • 学习的时候:一类项目一个虚拟环境(爬虫的虚拟环境、数据分析的虚拟环境….)
    • 实际工作、做项目:一个项目一个虚拟环境

request的基本用法

  1. 请求网络数据:requests.get(请求地址)

    import requests
    response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js')
    
  2. 设置解码方式(乱码的是需要设置的 - 一定要在获取结果之前设置)

    response.encoding='utf-8'
    
  3. 获取请求结果

    # 1)获取请求结果对应的文本数据  -  用于爬网页
    print(response.text)
    # 2)获取二进制格式的请求结果  -  下载图片、视频、音频
    print(response.content)
    
    # 3)获取请求结果json转换的结果  -  json接口
    print(response.json())
    

添加请求头

  1. 请求发送
  • 添加header:a.浏览器伪装(user-agent)、b.免密登录(cookie)、c.设置代理(proxies)

    import requests
    headers = {
        'cookie': 'bid=58Gyjz_NAcA; ll="118318"; douban-fav-remind=1; viewed="36164018_36221918"; ap_v=0,6.0',
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
    }
    
    response = requests.get('https://movie.douban.com/top250', headers=headers)
    
  1. 获取结果

    result=response.text
    print(result)
    

下载图片,音频,视频

  1. 获取网络图片数据

    response=requests.get('https://p2.itc.cn/images01/20210120/abc681f6899e4f22bdfb77dd262f7ab7.jpeg')
    result = response.content
    print(type(result))
    
  2. 保存数据到本地文件

with open('./files/a.jpg','wb') as f:
    f.write(result)
  1. 载音频,下载的音频只能在浏览器中打开
response = requests.get('https://game.gtimg.cn/images/lol/act/img/vo/choose/1.ogg')
result = response.content

with open('./files/b.mp3','wb') as f:
    f.write(result)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值