day 16 爬虫
1、认识爬虫
爬虫:用程序收集网络数据
抓包工具:拿到接口
步骤:
确定目标数据
找目标数据
获取网络数据:request、selenium
解析数据:正则表达式(难、效率高)、基于css选择器的解析器(bs4)(编程难度最低)、基于xpath的解析器(xml)(难度其次)
保存数据:
补充:
python环境:
1、系统环境:安装pyton的时候自动提供python环境
2、程序员自己创建的虚拟环境
环境作用:提供python解释器、容器(第三方库)
只有唯一环境缺陷:容器中第三方库加载过多,版本更新后版本不兼容
虚拟环境:有多组解释器+容器
开发:一个项目一个虚拟环节,并将虚拟环境放在项目中:location/venv
学习:一类项目一个虚拟环境
在设置-项目-解释器里可以配置环境
"""
requests:设置-项目-解释器-搜索requests,默认安装最新版本
import requests
作用1:爬网页数据
1.对网页发送请求数据
response = requests.get('网址')
2.设置文本内容的编码方式(如果打印结果乱码则需要设置编码方式)
response.encoding = '网页编码方式' 网页编码方式:meta-...-charset=utf-8
3.获取网页内容
result = response.txt
print(resuult)
作用2:请求接口数据
1.对接口发送请求
reponse = requests.get('接口')
2. 对请求结果进行json解析(json解析就是将json数据转换成对应的python数据)
result = response.json()
dor x in result['hero']:
print(x['name'], x['goldPrice'])
补充:json数据:json是一种通用的文本数据格式(xml数据格式也是通用的文本数据格式)
1. 认识json
要求:有且只有一个数据,并且这个数据是json支持的类型的数据。
json支持的数据类型格式:
1)数字 - 和数学一样
2)字符串 - 只能使用双引号
3)布尔 - true、false
4)空值 - null
5)数组(列表) - [数据1, 数据2, 数据3]
6)字典 - {键1: 值1, 键2: 值2, ...} (字典的键只能是字符串,值可以是任何类型的数据)
2. Python与json的相互转换
python中的json模块中提供了处理json数据的相关函数
import json
1)将json数据转换成对应的Python数据
json字符串 -> python字符串
json数字 -> python数字
null -> None
true、false -> True、False
json.loads(json格式字符串):将指定的json数据转换成对应的python
json格式字符串:字符串是一个合法的json数据的字符串
result = json.loads('""')
print(result, type(result))
result = json.load('100')
print(result, type(result))
result = json.load('null')
print(result)
result = json.loads('[10, "abd", true, null]')
print(result, type(result))
2)将python数据转换成对应的json格式数据
json.dump(python数据):将python数据转换成对应的json格式字符串
json.dumps(100)
'100'
json.dumps('abc')
'"abc"'
json.dumps(True)
'true'
json.dumps({'name':'张三', 'age':18, '已婚':True, 10:20})
{"name":"张三", "age":18, "已婚":True, "10":20}
作用3:下载图片、视频、音频等
1.对图片地址、视频地址或者音频地址发送请求
response = requests.get('图片地址或者音频地址')
2.获取请求结果(视频 、音频或者图片数据)
result = responese.content
print(type(result))
class 'bytes'
3.将图片、视频或者图片的数据保存到文件中
with open('files/a.jpg', 'wb') as f:
f.write(result)
"""
2、反爬
"""
1、对网页发送请求
2、伪装成浏览器
谷歌浏器-控制台-Network-All-网页名-Headers-User-Agent:
构建动态模板:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36
3、获取网页内容
"""
import requests
from re import findall
#1
#2
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
response = requests.get('https://movie.douban.com/top250', headers=headers)
"""
print(response)
状态码
418(开玩笑)
404(空)
200(成功)
"""
#3(控制台查找:ctrl+f)
# print(response.text)
#所有电影中文名称
names = findall(r'<img width="100" alt="(\w+)"', response.text)
print(names)
#所有电影的评分
grades = findall(r'<span class="rating_num" property="v:average">(\d+[.]?\d*)</span>', response.text)
print(grades)
result = map(lambda i1, i2: {'title': i1, 'grades': i2}, names, grades)
print(list(result))
3、练习:将所有英雄选择的音频下载下来,下载的时候音频文件的名字用英雄名称
# 英雄联盟所有英雄信息接口:https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js
import requests
def get_all_audio_url():
response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js')
result = response.json()
urls = []
for x in result['hero']:
url = x['selectAudio']
name = x['title']
urls.append((url, name))
return urls
def download_audio(hero):
url = hero[0]
name = hero[1]
response = requests.get(url)
result = response.content
with open(f'files/{name}.ogg', 'wb') as f:
f.write(result)
print(f'========{name}音频下载完成===========')
if __name__ == '__main__':
for x in get_all_audio_url():
download_audio(x)