分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”

分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”

 

 

相信去过泰国旅游的小伙伴,无论是泰国的美食还是美景都让大家流连忘返。另一深刻印象便是泰国人妖啦,据老司机透露,泰国人妖秀场主要分布在芭提雅、普吉岛、曼谷、清迈等地。

 

而这其中尤其又以芭提雅的蒂芬妮人妖秀最为出名,每年的泰国人妖选美大赛,选出的冠亚季军,就在芭提雅的蒂芬妮人妖秀剧场里。本文主要基于蒂芬妮人妖秀的游记图片进行分析,寻找出蒂芬妮人妖秀最美人妖。

 

 

 

1

准备工作

 

本文涉及知识点较多,主要包括:爬虫、人脸识别、图像处理等。

 

编程环境为:anaconda。需要安装的依赖库有:

  • selenium

  • baidu-aip

  • opencv-python。

 

本次使用的浏览器为Chrome浏览器,由于Selenium中没有自带Chrome驱动,需要单独下载Chromedriver.exe最新版本,下载地址为:http://npm.taobao.org/mirrors/chromedriver/。

 

 

2

 

 

数据获取,本次数据获取主要基于马蜂窝旅游网,进行图像数据获取。

 

1).利用selenium进行爬取

目前只有极少数网站会对Selenium中的WebDriver进行识别反爬,本文采用Selenium控制浏览器来访问网页,这种方式虽然速度较慢,却能够自动解析网页中的JavaScript代码,其访问行为与人类无异,难以被反爬虫程序识别。页面解析不作过多介绍,程序如下:

 

 

在保证网络稳定的情况下,整个下载过程还是相对顺畅的。至此,除去异常图片,共下载图片2004张(这种方法的确很耗时)。

 

 

3

颜值打分

 

 

1).人脸检测并对颜值打分

纯手工打造一款人脸检测及颜值打分系统是一个庞大的工程,还好现在市面上已经有了一些免费的产品。优点当然是方便,绕过了算法,一个函数搞定。缺点也比较明显,无法搞清楚其对颜值的评判算法。不过颜值这个东西也是仁者见仁智者见智啦。

 

登录百度AI开放平台(http://ai.baidu.com/),进入控制台—人脸识别栏目,创建相关应用,最终获得APP_ID、API_KEY、SECRET_KEY三个数据。

 

 

 

2).调用百度api

获取每张图片的颜值评分。通过循环读取每张图片,首先判断图片是否含有人脸(不含人脸的图片过滤掉);然后判断每张图片的人脸颜值得分;再将“图片地址、图片颜值得分”存入数据框;得到含有“imagePath、beautyScore”数据框;最后再按颜值得分由高到底排序,得到颜值最高人妖图片。

 

程序运行结果如下:

 

从结果来看,含有人脸的图片共969张:

最高得分为93.1分(这也是唯一一位得分90分以上的人妖);

80分以上25张(占比2.58%);

60分以上300张(占比30.96%)

 

 

4

图像分类处理

 

 

调用OpenCV图像处理库,将得分在80分以上的人妖图片单独存在一个文件夹。

 

 

下面让我们来看一看得分在80分以上的人妖都长啥样。

 

不知道有多少小伙伴去过泰国旅游,泰国还有很多不错的景点,尤其是旅游热门城市普吉岛。最后弱弱的问一下,有看过人妖表演的请在留言区吱一声

 

另外:本文的爬虫内容仅供个人学习使用,纯属练习Python提高技术。

 

上次的Python版本投票 还在火热进行中,目前有近650参与,欢迎参与!

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值