知乎大神用Python爬取高颜值美女（爬虫+人脸检测+颜值检测）

最新推荐文章于 2023-03-20 21:47:41 发布

小詹学 Python

最新推荐文章于 2023-03-20 21:47:41 发布

阅读量627

点赞数

本文来源于：Python与人工智能社区

1 数据源

知乎话题『美女』下所有问题中回答所出现的图片

2 抓取工具

Python 3，并使用第三方库 Requests、lxml、AipFace，代码共 100 + 行

3 必要环境

Mac / Linux / Windows （Linux 没测过，理论上可以。Windows 之前较多反应出现异常，后查是 windows 对本地文件名中的字符做了限制，已使用正则过滤）
无需登录知乎（即无需提供知乎帐号密码）
人脸检测服务需要一个百度云帐号（即百度网盘 / 贴吧帐号）

4 人脸检测库

AipFace，由百度云 AI 开放平台提供，是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问，免费使用。

5 检测过滤条件

过滤所有未出现人脸图片（比如风景图、未露脸身材照等）
过滤所有非女性（在抓取中，发现知乎男性图片基本是明星，故不考虑；存在 AipFace 性别识别不准的情况）
过滤所有非真实人物，比如动漫人物（AipFace Human 置信度小于 0.6）
过滤所有颜值评分较低图片（AipFace beauty 属性小于 45，为了节省存储空间；再次声明，AipFace 评分无任何客观性）

6 实现逻辑

通过 Requests 发起 HTTP 请求，获取『美女』下的部分讨论列表
通过 lxml 解析抓取到的每个讨论中 HTML，获取其中所有的 img 标签相应的 src 属性
通过 Requests 发起 HTTP 请求，下载 src 属性指向图片（不考虑动图）
通过 AipFace 请求对图片进行人脸检测
判断是否检测到人脸，并使用『4 检测过滤条件』过滤
将过滤后的图片持久化到本地文件系统，文件名为颜值 + 作者 + 问题名 + 序号
返回第一步，继续

7 抓取结果

直接存放在文件夹中（angelababy 实力出境）。另外说句，目前抓下来的图片，除 baby 外，88 分是最高分。个人对其中的排序表示反对，老婆竟然不是最高分

代码

9 运行准备

安装 Python 3，Download Python
安装 requests、lxml、baidu-aip 库，都可以通过 pip 安装，一行命令
申请百度云检测服务，免费。人脸识别-百度AI

*声明：本文于网络整理，版权归原作者所有，如来源信息有误或侵犯权益，请联系我们删除或授权事宜。

往期精彩

为了追到小姐姐，我用 Python 制作了一个机器人

人生苦短，不光要用Python，还要在VSCode里用

那些功能逆天，却鲜为人知的pandas骚操作

天秀，17 岁高中生独立开发全球疫情追踪网站后火了！

The End







来和小伙伴们一起向上生长呀！扫描下方二维码，添加小詹微信，可领取千元大礼包并申请加入 Python 学习交流群，群内仅供学术交流，日常互动，如果是想发推文、广告、砍价小程序的敬请绕道！一定记得备注「交流学习」，我会尽快通过好友申请哦！????长按识别，添加微信（添加人数较多，请耐心等待）????长按识别，关注小詹（扫码回复 1024 领取程序员大礼包）