day 16 爬虫

最新推荐文章于 2024-08-10 10:09:09 发布

百事不可乐BOOM

最新推荐文章于 2024-08-10 10:09:09 发布

阅读量382

点赞数

文章标签：爬虫 python json

本文链接：https://blog.csdn.net/qq_63449560/article/details/128539193

版权

day 16 爬虫

1、认识爬虫

爬虫：用程序收集网络数据
抓包工具：拿到接口

步骤：
确定目标数据
找目标数据
获取网络数据：request、selenium
解析数据：正则表达式（难、效率高）、基于css选择器的解析器（bs4）（编程难度最低）、基于xpath的解析器（xml）（难度其次）
保存数据：

补充：

python环境：
1、系统环境：安装pyton的时候自动提供python环境
2、程序员自己创建的虚拟环境

环境作用：提供python解释器、容器（第三方库）

只有唯一环境缺陷：容器中第三方库加载过多，版本更新后版本不兼容
虚拟环境：有多组解释器+容器

开发：一个项目一个虚拟环节，并将虚拟环境放在项目中：location/venv
学习：一类项目一个虚拟环境

在设置-项目-解释器里可以配置环境


"""
requests:设置-项目-解释器-搜索requests,默认安装最新版本


import requests


作用1:爬网页数据
1.对网页发送请求数据
response = requests.get('网址')

2.设置文本内容的编码方式(如果打印结果乱码则需要设置编码方式)
response.encoding = '网页编码方式'    网页编码方式：meta-...-charset=utf-8

3.获取网页内容
result = response.txt
print(resuult)

作用2：请求接口数据
1.对接口发送请求
reponse = requests.get('接口')

2. 对请求结果进行json解析（json解析就是将json数据转换成对应的python数据）
result = response.json()
dor x in result['hero']:
    print(x['name'], x['goldPrice'])

补充：json数据:json是一种通用的文本数据格式（xml数据格式也是通用的文本数据格式）
1. 认识json
要求：有且只有一个数据，并且这个数据是json支持的类型的数据。

json支持的数据类型格式：
1）数字    -   和数学一样
2）字符串   -   只能使用双引号
3）布尔     -   true、false
4）空值        -   null
5）数组(列表)    -   [数据1, 数据2, 数据3]
6）字典        -   {键1: 值1, 键2: 值2, ...} (字典的键只能是字符串，值可以是任何类型的数据)

2. Python与json的相互转换
python中的json模块中提供了处理json数据的相关函数
import json

1)将json数据转换成对应的Python数据
json字符串  -> python字符串
json数字   ->  python数字
null      -> None
true、false -> True、False
json.loads(json格式字符串)：将指定的json数据转换成对应的python
json格式字符串：字符串是一个合法的json数据的字符串

result = json.loads('""')
print(result, type(result))

result = json.load('100')
print(result, type(result))

result = json.load('null')
print(result)

result = json.loads('[10, "abd", true, null]')
print(result, type(result))

2)将python数据转换成对应的json格式数据
json.dump(python数据)：将python数据转换成对应的json格式字符串

json.dumps(100)     
'100'

json.dumps('abc')   
'"abc"'

json.dumps(True)    
'true'

json.dumps({'name':'张三', 'age':18, '已婚':True, 10:20})    
{"name":"张三", "age":18, "已婚":True, "10":20}

作用3：下载图片、视频、音频等
1.对图片地址、视频地址或者音频地址发送请求
response = requests.get('图片地址或者音频地址')

2.获取请求结果（视频 、音频或者图片数据）
result = responese.content
print(type(result))         
class 'bytes'

3.将图片、视频或者图片的数据保存到文件中 
with open('files/a.jpg', 'wb') as f:
    f.write(result)

"""

2、反爬


"""
1、对网页发送请求

2、伪装成浏览器
谷歌浏器-控制台-Network-All-网页名-Headers-User-Agent：

构建动态模板：Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

3、获取网页内容


"""
import requests

from re import findall
#1
#2
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
response = requests.get('https://movie.douban.com/top250', headers=headers)


"""
print(response)

状态码
418（开玩笑）
404（空）
200（成功）
"""

#3(控制台查找：ctrl+f)
# print(response.text)
#所有电影中文名称
names = findall(r'<img width="100" alt="(\w+)"', response.text)
print(names)

#所有电影的评分
grades = findall(r'<span class="rating_num" property="v:average">(\d+[.]?\d*)</span>', response.text)
print(grades)

result = map(lambda i1, i2: {'title': i1, 'grades': i2}, names, grades)
print(list(result))

3、练习：将所有英雄选择的音频下载下来，下载的时候音频文件的名字用英雄名称


# 英雄联盟所有英雄信息接口：https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js

import requests

def get_all_audio_url():
    response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js')
    result = response.json()
    urls = []
    for x in result['hero']:
        url = x['selectAudio']
        name = x['title']
        urls.append((url, name))
    return urls


def download_audio(hero):
    url = hero[0]
    name = hero[1]
    response = requests.get(url)
    result = response.content
    with open(f'files/{name}.ogg', 'wb') as f:
        f.write(result)
    print(f'========{name}音频下载完成===========')


if __name__ == '__main__':
    for x in get_all_audio_url():
        download_audio(x)