requests‐bs4路线实现中国大学排名定向爬虫

最新推荐文章于 2024-08-16 17:18:56 发布

数据之魅

最新推荐文章于 2024-08-16 17:18:56 发布

阅读量1.4k

点赞数 1

分类专栏：原创文章 Python 文章标签：爬虫中国 python 大学数据科学家

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Airy_/article/details/62425759

版权

预备阅读：Python中Requests库的用法 Python中Beautiful Soup的用法

前言

最近学习了北京理工大学崇天老师的Python爬虫课程，老师讲了一个实现“中国大学排名定向爬虫”的实例，这里想自己实现一下，并分享给大家。
2016年中国最好大学排名：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html

功能描述

输入：大学排名URL链接
输出：大学排名信息的屏幕输出（排名，大学名称，总分）
技术路线：requests‐bs4
定向爬虫：仅对输入URL进行爬取，不扩展爬取

定向爬虫的可行性

对于定向爬虫，我们不能暴力爬取数据，而是要遵循网站的robots协议，一般robots协议都在网站根目录下，直接输入类似http://www.zuihaodaxue.cn/robots.txt的URL链接地址即可查看，robots协议告诉我们，哪些内容是可以抓取的，哪些内容是不可以抓取的，这也是为了维护网络的安全环境。

程序的结构设计

步骤1：从网络上获取大学排名网页内容        getHTMLText()
步骤2：提取网页内容中信息到合适的数据结构   fillUnivList()
步骤3：利用数据结构展示并输出结果           printUnivList()

首先我们看一下main()函数，这里的main函数和C语言中的类似，我们定义了一个

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。