百度深度学习7日打卡第六期:Python小白逆袭大神
https://aistudio.baidu.com/aistudio/course/introduce/1224
Day2-《青春有你2》选手信息爬取
这个作业主要考察BeautifulSoup以及Chrome开发者模式的使用。
使用Chrome打开网站:https://baike.baidu.com/item/青春有你第二季
F12,进入开发者模式,找到“参赛学员”的表格,可以在源码中找到上图中标红的代码:
<table log-set-param="table_view" class="table-view log-set-param">
BeautifulSoup 就是根据 'table' 和class的内容在网页中找到这个表格的,代码如下:
找到table后,再从中查找 'tr' ,每一行是一个tr,
每一列是一个td,可用td[0],td[1]依次获取每一列的内容。
在获取照片时,先根据 'summary-pic' 找到相册封面的相对网址:
拼接后,得到绝对网址,进入后,再通过 'pic-item' 获取相册中每张照片的地址。
这里的'pic-item selected'只有在人为访问的时候才会出现,表示当前展示给你的图片,而用requests获取的网页中不会有这个关键词,所以确保能够将所有图片都能爬取到。
更多爬虫教程,欢迎关注公众号: