Python爬虫有手就行系列（二）----最好大学网

最新推荐文章于 2024-07-26 17:36:26 发布

Q️️80244️5

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量401

点赞数 1

分类专栏： Python爬虫 Python 文章标签： python 大数据 html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013010088/article/details/105568808

版权

Python爬虫同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

上一篇我们讲到了获取静态网页资源的HTML源代码

那么怎么拿到我们想要的内容呢

今日被“霍霍”的网站：http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html

最好大学网

本期用到的工具库：①BeautifulSoup4 安装方法：打开命令提示符(CMD):pip install BeautifulSoup4

②requests 安装方法：打开命令提示符(CMD):pip install requests

这一步不会的小伙伴可以自行百度也可以留言私信我

前期一切准备工作做好了，开始正文

我用的是谷歌浏览器，也推荐大家使用谷歌浏览器

第一步：分析网站

按键盘F12打开加载好的网页源代码并点击左上角小箭头、然后点击到目标处如图标注处：
在这里插入图片描述

当点击到目标处后发现源代码也跳到的相应的地方如图：

在这里插入图片描述
发现我们要获得的排名数字1在一个td标签内，那么这就是我们要获取的内容，相同方法看其他三个需要获取的内容在什么标签内，并且发现，所需所有内容每一行都在一个class=alt的tr标签内（划重点，下面要用，看不到仔细看看），接下来为整体思路！！！！——>>>那么意味着，我们可以借助BeautifulSoup（不会的网上找找教程教程很多，这里我们就讲我认为最实用的）直接拿到class=alt的所有标签，就拿到了每一行，再详细获取每一行中的每一个单元格就得到了我们想要的数据,下面上代码

第二步：获取网页源代码
在这里插入图片描述
这里就获取到了网页源代码，我就只截取了网页HTML源代码的一部分

第三步：解析爬虫获取到的网页源代码

BeautifulSoup只是一个工具在这就不细讲了，这里推荐会用select方法就行了，select方法中 #***代表ID是什么例如id=“qq” 那么就是soup.select("#qq") , .***代表class是什么例如class=“qq” 那么就是soup.select(".qq") ，简单用法就讲解到这，想要深入了解的百度查询一下

根据整体思路先获得每一行
在这里插入图片描述

再根据获得的的行获取其中的单元格，我们通过循环获取每一行中的每个单元格

打印出来就获取到了我们想要的数据
总结：爬取网站最重要的是思路，照着思路一步步实现就好，切记：对这个网站没思路可以不要动手写爬虫毫无意义

Q️️80244️5

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫有手就行系列（二）----最好大学网

上一篇我们讲到了获取静态网页资源的HTML源代码那么怎么拿到我们想要的内容呢今日被“霍霍”的网站：http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html最好大学网本期用到的工具库：①BeautifulSoup4 安装方法：打开命令提示符(CMD):pip install BeautifulSoup4②requests 安装方法：打开...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。