python爬虫案例典型：爬取大学排名（亲测有效）

最新推荐文章于 2024-06-19 17:27:45 发布

万里长江雪

最新推荐文章于 2024-06-19 17:27:45 发布

阅读量4.8k

点赞数 7

分类专栏：面试学习路线阿里巴巴文章标签： python 爬虫开发语言 java-ee 数据库

本文链接：https://blog.csdn.net/fwdwqdwq/article/details/125241272

版权

本文分享了如何使用Python爬虫成功获取大学排名的过程。通过分析程序，介绍了requests和bs4库的作用，以及在getHTMLText函数中try...except语句的异常处理机制，最后展示了向网站发起请求并获取响应对象的操作。

摘要由CSDN通过智能技术生成

前言：

之前在课本上和csdn看到了这个爬取大学排名的案例，但照着案例打出的程序一直报错，后来一步一步根据网上资料分析程序后，不断改错后，终于实现了这个程序的编写。

一、程序展示

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivLIst(ulist, html):
    soup = bs4.BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        #检测tag类型，过滤非tag类型标签
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([str(tr('td')[0].contents[0]).strip(), tds[1].a.string, str(tr('td')[4].contents[0]).strip()])
    return ulist

def printUnivList(ulist, num):
    #tplt = "{0:^10}	{1:{3}^6}	{2:^10}"
    print("{:^10}	{:^6}	{:^10}".format("排名","学校名称","总分"))
#     print(tplt.format("排名","学校名称","总分",chr=(12288)))
    for i in range(num):
        u=ulist[i]
        print("{:^10}	{:^6}	{:^10}".format(u[0],u[1],u[2]))
#         print(tplt.format(u[0],u[1],u[2],chr=(12288)))
    
def main():

最低0.47元/天解锁文章

万里长江雪

关注

7
点赞
踩
54

收藏

觉得还不错? 一键收藏
0
评论
python爬虫案例典型：爬取大学排名（亲测有效）

之前在课本上和csdn看到了这个爬取大学排名的案例，但照着案例打出的程序一直报错，后来一步一步根据网上资料分析程序后，不断改错后，终于实现了这个程序的编写。二、运行结果展示三、程序实现需要的几个函数库requests和 bs4其中requests库用来爬取网页内容，使用beautifulsoup4库分析网页中的数据，提取学校排名并且打印出来。首先这两个库是要提前下载的：需要我们使用cmd进入到我们python下载所在的文件中的Scripts文件中，输入下列指令下载即可四、程序分析简单分析一下这个
复制链接

扫一扫

专栏目录