Python爬虫有手就行系列(二)----最好大学网

上一篇我们讲到了获取静态网页资源的HTML源代码

那么怎么拿到我们想要的内容呢

今日被“霍霍”的网站:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html

最好大学网
最好大学网

本期用到的工具库:①BeautifulSoup4 安装方法:打开命令提示符(CMD):pip install BeautifulSoup4

②requests 安装方法:打开命令提示符(CMD):pip install requests

这一步不会的小伙伴可以自行百度也可以留言私信我

前期一切准备工作做好了,开始正文

我用的是谷歌浏览器,也推荐大家使用谷歌浏览器

第一步:分析网站

按键盘F12打开加载好的网页源代码 并点击左上角小箭头、然后点击到目标处 如图标注处:
在这里插入图片描述

当点击到目标处后 发现源代码也跳到的相应的地方 如图:

在这里插入图片描述
发现我们要获得的排名数字1在一个td标签内,那么这就是我们要获取的内容,相同方法看其他三个需要获取的内容在什么标签内,并且发现,所需所有内容每一行都在一个class=alt的tr标签内(划重点,下面要用,看不到仔细看看),接下来为整体思路!!!!——>>>那么意味着,我们可以借助BeautifulSoup(不会的网上找找教程 教程很多,这里我们就讲我认为最实用的)直接拿到class=alt的所有标签,就拿到了每一行,再详细获取每一行中的每一个单元格就得到了我们想要的数据,下面上代码

第二步:获取网页源代码
在这里插入图片描述
这里就获取到了网页源代码 ,我就只截取了网页HTML源代码的一部分

第三步:解析爬虫获取到的网页源代码

BeautifulSoup只是一个工具 在这就不细讲了,这里推荐会用select方法就行了,select方法中 #***代表ID是什么 例如id=“qq” 那么就是soup.select("#qq") , .***代表class是什么 例如class=“qq” 那么就是soup.select(".qq") ,简单用法就讲解到这,想要深入了解的百度查询一下

根据整体思路先获得每一行
在这里插入图片描述
在这里插入图片描述
再根据获得的的行获取其中的单元格,我们通过循环获取每一行中的每个单元格
在这里插入图片描述
打印出来就获取到了我们想要的数据
总结:爬取网站最重要的是思路,照着思路一步步实现就好,切记:对这个网站没思路可以不要动手写爬虫 毫无意义

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值