爬取2024年中国大学排名数据分析全过程

数模竞赛Paid answer

于 2024-12-20 09:43:51 发布

阅读量603

点赞数 12

分类专栏：数据分析爬虫文章标签：数据分析爬虫中国大学数据分析

本文链接：https://blog.csdn.net/weixin_43292788/article/details/144601633

版权

数据分析同时被 2 个专栏收录

193 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

问题要求

从https://www.shanghairanking.cn/rankings/bcur/202411中，爬取中国大学排名(主榜)共计594 所学校的信息。
1.从第一页开始爬，到最后一页(第二十页)。
2.将每所大学的信息保存进 CSV 文件中的一行，从左到右依次为:

第一列排名
第二列中文名称
第三列是否为985/211/双一流
第四列省市
第五列类型
第六列总分

在这里插入图片描述

全部论文及程序请见下方“ 只会建模 QQ名片” 点击QQ名片即可

非慈善耶稣

为防止空手套白狼我这里仅展现一点点代码全部代码见下方“ 只会建模 QQ名片” 点击QQ名片即可

for i in range(0, length):
            list0 = list_total[i]
            # 大学中文名
            name_cn = re.findall('class="name-cn">(.*?) </a>', list0)
            # 大学英文名
            name_en = re.findall('class="name-en">(.*?) </a>', list0)
            # 大学级别
            tags = re.findall('class="tags">(.*?)</p>', list0)
            # 无级别 比如不是 985/211的学校
            # 空列表==false
            if not tags:
                tags = ['无']
            # 大学所在省市 和 大学类型
            list_province_category = re.findall(
                '<td data-v-3fe7d390="" class="">\n            (.*?)\n            <!----></td>',
                list0)
            # 大学总分
            score = re.findall('<td data-v-3fe7d390="" class="">\n            (.*?)\n          </td>', list0)
            # 办学层次
            School_level = re.findall(
                '<td data-v-3fe7d390="" class="">\n                    (.*?)\n                </td>',
                list0)
            list_0 = name_cn + name_en + tags + list_province_category + score + School_level
            list_information.append(list_0)