Python爬虫实战 ---- 中国大学排名

最新推荐文章于 2024-07-11 12:55:40 发布

wucunqi

最新推荐文章于 2024-07-11 12:55:40 发布

阅读量632

点赞数 9

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58714015/article/details/135642352

版权

Python爬虫实战 ---- 中国大学排名

链接：https://www.shanghairanking.cn/rankings/bcur/2023

源代码

# 获取网页内容
# 提取信息到数据结构，二维列表
# 数据结构展示并输出

import requests
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

# 从html提取内容放大ulist中
def fillUnivList(ulist, html):
    soup = bs4.BeautifulSoup(html,'html.parser')
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([ tds[0].string.strip(), tds[1].find('a','name-cn').string.strip(), tds[2].text.strip() ,tds[3].text.strip(), tds[4].string.strip() ])

# 打印ulist的num个数据信息
def printUnivList(ulist, num):
    tmplt = "{0:^10}\t{1:{5}^10}\t{2:{5}^10}\t{3:{5}^10}\t{4:{5}^10}"
    print(tmplt.format('排名', '学校', '地区', '类型', '总分', chr(12288)))
    for i in range(num):
        u = ulist[i]
        u[0] = u[0] if u[0] is not None else "暂无信息"
        u[1] = u[1] if u[1] is not None else "暂无信息"
        u[2] = u[2] if u[2] is not None else "暂无信息"
        u[3] = u[3] if u[3] is not None else "暂无信息"
        u[4] = u[4] if u[4] is not None else "暂无信息"
        print(tmplt.format(u[0], u[1], u[2], u[3], u[4], chr(12288)))

def main():
    uinfo = []
    url = 'https://www.shanghairanking.cn/rankings/bcur/2023'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20)

main()

运行结果

在这里插入图片描述

结语

创作不易，坚持输出优质文章，您的支持是我最大的动力。
在这里插入图片描述

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫实战 ---- 中国大学排名

创作不易，坚持输出优质文章，您的支持是我最大的动力。
复制链接

扫一扫

wucunqi CSDN认证博客专家 CSDN认证企业博客

码龄3年

北京林业大学

12: 原创

42万+: 周排名

17万+: 总排名

5528: 访问

: 等级

166: 积分

34: 粉丝

41: 获赞

6: 评论

63: 收藏

私信

关注

热门文章

分类专栏

笔记

最新评论

Unknown error 3140 Invalid JSON text: “Invalid value.“ at position 0 but for a NULL column
CSDN-Ada助手: 恭喜您发表第12篇博客！标题“Unknown error 3140 Invalid JSON text: “Invalid value.“ at position 0 but for a NULL column”看起来非常专业和有深度。继续保持创作的热情和耐心是非常重要的，尤其是在遇到技术问题时能够坚持解决并分享经验，这对读者来说将会是一笔宝贵的财富。接下来，或许可以考虑分享一些解决类似问题的具体操作步骤或者案例分析，让读者更好地理解和应用您的经验。期待您更多的精彩内容！
vue+ts配置自动引入element组件后报红色波浪线
CSDN-Ada助手: Vue入门技能树或许可以帮到你：https://edu.csdn.net/skill/vue?utm_source=AI_act_vue
ts文件报错.vue文件不是模块
CSDN-Ada助手: 恭喜你写了第8篇博客！看到你遇到了ts文件报错.vue文件不是模块的问题，我觉得你对技术的钻研精神真是令人钦佩。希望你能继续保持创作的热情，同时建议你可以尝试分享一些解决这类问题的经验和技巧，或者分享一些实用的开发小工具，这样能够让更多的读者受益。加油！
Tomcat服务器配置静态资源访问
CSDN-Ada助手: 恭喜您完成了第7篇博客！标题“Tomcat服务器配置静态资源访问”听起来非常有趣。您对Tomcat服务器的配置知识一定很熟悉，能够帮助读者更好地理解如何访问静态资源。不过，如果可能的话，我希望您能够在下一篇博客中分享一些实例或者案例，进一步展示如何应用这些配置来解决实际问题。这样读者们将更容易理解和应用您所提供的知识。期待您的下一篇博客！
Eclipse stop 或者 restart tomca报端口占用错误
CSDN-Ada助手: 恭喜您写出了这篇关于Eclipse和Tomcat的博客，这对许多开发者来说是一个常见的问题。也感谢您分享了解决这个问题的方法。下一步，我建议您可以写一些关于如何优化Tomcat性能的文章，这对于许多开发者也是非常有用的。再次感谢您的分享，期待您的下一篇文章。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wucunqi 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。