前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~!
环境使用:
-
Python 3.8 解释器
-
Pycharm 编辑器
模块使用:
-
requests >>> pip install requests
-
tqdm >>> pip install tqdm 简单实现进度条效果
-
os 文件操作
-
base64
第三方模块安装:
-
win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
-
在pycharm中点击Terminal(终端) 输入安装命令
如果出现爆红, 可能是因为 网络连接超时, 可切换国内镜像源,命令如下:
pip install -i https://pypi.doubanio.com/simple/ requests
本次案例分为三个步骤:
一. 采集主播照片
数据来源分析
-
明确需求:
-
采集的网站是那个?
-
采集的数据是那个?
主播照片/主播昵称
-
-
分析 主播照片/主播昵称 在什么地方可以获得
通过开发者工具<浏览器自带工具>进行抓包<数据包>分析
-
打开开发者工具: F12 / 鼠标右键点击检查选择network
I. 定位找到单张图片url地址
II. 通过图片url地址中, 一段参数, 去搜索查询所对应数据包
-
点击第二页 --> XHR --> 第一个数据包
问: 你怎么知道, 是这个数据包呢?
答: 通过搜索抓包分析得到的
-
二. 对于照片进行人脸识别检测, 进行打分
使用百度云API接口
-
注册一个百度云账号
-
创建应用 --> 领取免费资源
-
点击技术文档
-
Access Token获取
三. 实现评分排名
代码展示
导入所需模块
import requests
import base64
import os
import time
from tqdm import tqdm
一、采集主播照片
# 请求链接
url = 'https://***/cache.php?m=LiveList&do=getLiveListByPage&gameId=1663&tagAll=0&page=2'
# 模拟浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
# for循环遍历, 一个一个提取列表里面元素
for index