中国大学排名定向爬取

最新推荐文章于 2023-09-05 02:08:07 发布

xiao黄

最新推荐文章于 2023-09-05 02:08:07 发布

阅读量477

点赞数

分类专栏：爬虫文章标签： python 爬虫排名

本文链接：https://blog.csdn.net/Python_Matlab/article/details/104223592

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

通过最好大学网的最好大学排名

步骤一：从网络上获取大学排名网页内容
步骤二：提取网页内容中信息到合适的数据结构
步骤三：利用数据结构展示并输出结果
在这里插入图片描述
通过右键查看其网页源代码，可得到如下界面：

我们在这个界面找到如下信息，可以发现，这些信息是在tbody标签下的，tr下面的td中就是我们想要爬取的信息。

我们仅爬取前四个td值进行返回，第一个是排名，第二是学校名称，第三是办学省（市），第四是分数，程序如下：

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, 'html.parser')
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string])

def printUnivList(ulist, num):
    # print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format("排名", "学校名称", "地点", "得分"))
    tplt = "{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}"
    print(tplt.format("排名", "学校名称", "地点", "得分", chr(12288)))
    for i in range(num):
        u = ulist[i]
        # print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format(u[0], u[1], u[2], u[3]))
        print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))

def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 只打印20所

main()

运行结果如下：
在这里插入图片描述

xiao黄

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
中国大学排名定向爬取

通过最好大学网的最好大学排名步骤一：从网络上获取大学排名网页内容步骤二：提取网页内容中信息到合适的数据结构步骤三：利用数据结构展示并输出结果通过右键查看其网页源代码，可得到如下界面：我们在这个界面找到如下信息，可以发现，这些信息是在tbody标签下的，tr下面的td中就是我们想要爬取的信息。我们仅爬取前四个td值进行返回，第一个是排名，第二是学校名称，第三是办学省（市），第四是分...
复制链接

扫一扫