爬取2024年中国大学排名数据分析全过程

问题要求

  从https://www.shanghairanking.cn/rankings/bcur/202411中,爬取中国大学排名(主榜)共计594 所学校的信息。
1.从第一页开始爬,到最后一页(第二十页)。
2.将每所大学的信息保存进 CSV 文件中的一行,从左到右依次为:

  第一列 排名
  第二列 中文名称
  第三列 是否为985/211/双一流
  第四列 省市
  第五列 类型
  第六列 总分

在这里插入图片描述

全部论文及程序请见下方“ 只会建模 QQ名片” 点击QQ名片即可
非慈善耶稣
为防止空手套白狼 我这里仅展现一点点代码 全部代码见下方“ 只会建模 QQ名片” 点击QQ名片即可
for i in range(0, length):
            list0 = list_total[i]
            # 大学中文名
            name_cn = re.findall('class="name-cn">(.*?) </a>', list0)
            # 大学英文名
            name_en = re.findall('class="name-en">(.*?) </a>', list0)
            # 大学级别
            tags = re.findall('class="tags">(.*?)</p>', list0)
            # 无级别 比如不是 985/211的学校
            # 空列表==false
            if not tags:
                tags = ['无']
            # 大学所在省市 和 大学类型
            list_province_category = re.findall(
                '<td data-v-3fe7d390="" class="">\n            (.*?)\n            <!----></td>',
                list0)
            # 大学总分
            score = re.findall('<td data-v-3fe7d390="" class="">\n            (.*?)\n          </td>', list0)
            # 办学层次
            School_level = re.findall(
                '<td data-v-3fe7d390="" class="">\n                    (.*?)\n                </td>',
                list0)
            list_0 = name_cn + name_en + tags + list_province_category + score + School_level
            list_information.append(list_0)

在这里插入图片描述

全部论文及程序请见下方“ 只会建模 QQ名片” 点击QQ名片即可
非慈善耶稣
Python爬取网页信息,通常会使用一些强大的库,如requests用于发送网络请求,BeautifulSoup或lxml用于解析HTML页面。不过,由于您提到的“2024大学排行榜”并不是一个具体的网址或已知的公开数据源,所以无法提供一个确切的代码示例。此外,爬取网站数据时,您应该遵守该网站的robots.txt规则和相关法律法规,以确保您的行为合法合规。 下面是一个比较通用的Python爬虫示例,用于展示如何获取和解析网页数据: ```python import requests from bs4 import BeautifulSoup # 假设我们有一个具体的网页URL,该URL提供了大学排行榜信息 url = 'http://example.com/university-rankings' # 发送GET请求 response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 使用BeautifulSoup解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 假设排行榜信息包含在表格中,我们需要找到表格并遍历表格行 table = soup.find('table', {'class': 'rankings'}) rows = table.find_all('tr') # 遍历每一行,提取我们需要的信息 for row in rows: cols = row.find_all('td') if cols: # 大学名称 university_name = cols[0].text.strip() # 排名 rank = cols[1].text.strip() # 其他信息... print(f'排名: {rank}, 大学: {university_name}') else: print('无法获取网页内容') ``` 请注意,上述代码中的URL、表格类名、行和单元格选择器需要根据实际的网页结构进行调整。在实施爬虫之前,您需要确定目标网页的结构,并据此编写相应的解析代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值