百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取

百度深度学习7日打卡第六期:Python小白逆袭大神

https://aistudio.baidu.com/aistudio/course/introduce/1224

 

Day2-《青春有你2》选手信息爬取

 

这个作业主要考察BeautifulSoup以及Chrome开发者模式的使用。

 

使用Chrome打开网站:https://baike.baidu.com/item/青春有你第二季

F12,进入开发者模式,找到“参赛学员”的表格,可以在源码中找到上图中标红的代码:

<table log-set-param="table_view" class="table-view log-set-param">

BeautifulSoup 就是根据 'table' 和class的内容在网页中找到这个表格的,代码如下:

 

找到table后,再从中查找 'tr' ,每一行是一个tr,

每一列是一个td,可用td[0],td[1]依次获取每一列的内容。

 

在获取照片时,先根据 'summary-pic' 找到相册封面的相对网址:

拼接后,得到绝对网址,进入后,再通过 'pic-item' 获取相册中每张照片的地址。

这里的'pic-item selected'只有在人为访问的时候才会出现,表示当前展示给你的图片,而用requests获取的网页中不会有这个关键词,所以确保能够将所有图片都能爬取到。

 

更多爬虫教程,欢迎关注公众号:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值