使用BeautifulSoup解析 全国大学排行榜

先安装需要的模块

在 pycharm 的 Terminal(终端) 中使用命令安装

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple

网站地址:【软科排名】2023年最新软科中国大学排名|中国最好大学排名

源码:

# 使用BeautifulSoup解析
import requests
from bs4 import BeautifulSoup

# 定义抓取网页URL和请求头
url = 'https://www.shanghairanking.cn/rankings/bcur/202310'
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari'
}

# 发送HTTP请求并获取响应内容
response = requests.get(url, headers=header)

# 使用文件编码为utf-8
response.encoding = 'utf-8'

# 使用BeautifulSoup解析HTML响应内容
soup = BeautifulSoup(response.text, features='lxml')

# 打印页面标题
print(soup.title)

# 查找所有的相关信息
table = soup.find('table', class_='rk-table')
# 查找相关信息中的排名
rows = table.find_all('tr')

# 打印所需的格式
print("排名" + "  " + "学校" + "  " + "总分")

# 循环遍历rows(即排名)
for row in rows:
    # cols为自定义变量其意义为一个索引0即为1 用来定位td
    cols = row.find_all('td')
    if len(cols) > 0:
        rank = cols[0].text.strip()
        university = cols[1].div.a.text.strip()
        mark = cols[4].text.strip()
        print(rank, university, mark)

运行结果:

<title>【软科排名】2023年最新软科中国大学排名|中国最好大学排名</title>
排名  学校  总分
1 清华大学 1004.1
2 北京大学 910.5
3 浙江大学 822.9
4 上海交通大学 778.6
5 复旦大学 712.4
6 南京大学 676.2
7 中国科学技术大学 608.6
8 华中科技大学 606.2
9 武汉大学 599.1
10 西安交通大学 572.6
11 中山大学 570.0
12 四川大学 546.9
13 哈尔滨工业大学 544.2
14 北京航空航天大学 543.5
15 东南大学 532.3
16 北京理工大学 529.3
17 同济大学 527.0
18 中国人民大学 526.3
19 北京师范大学 523.4
20 南开大学 490.4
21 天津大学 480.5
医1 北京协和医学院 
22 山东大学 472.8
23 中南大学 466.1
24 厦门大学 463.2
25 西北工业大学 462.0
26 华南理工大学 444.2
27 吉林大学 439.1
28 电子科技大学 437.0
29 湖南大学 435.5

进程已结束,退出代码0

  • 8
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值