爬取软科中国最好大学排名

最新推荐文章于 2024-06-30 15:59:08 发布

这题要怎么做

最新推荐文章于 2024-06-30 15:59:08 发布

阅读量1.1k

点赞数

分类专栏：爬虫互联网相关文章标签：爬虫 python 正则表达式

本文链接：https://blog.csdn.net/lifei1229/article/details/105661741

版权

该博客展示了如何利用request、BeautifulSoup和正则表达式爬取2016年软科中国最好大学排行榜，详细介绍了爬取过程，包括获取网页内容、解析所需数据及保存数据到表格。

摘要由CSDN通过智能技术生成

这个例子是用request+bs+re来获取2016年的软科最好的大学排行榜

需要爬取的网页：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html。
爬取的内容：在这里插入图片描述

1、导入库

# -*- coding=utf-8 -*-
import requests
from bs4 import BeautifulSoup
import bs4
import xlwt
import re

2、爬取流程

def getHTMLText(url):
	pass

def fillUnivList(html):
	pass

def saveData(datalist, savepath):
	pass

if __name__ == '__main__':
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    path = r'./大学排名.xls'
    html = getHTMLText(url)
    uinfo = fillUnivList(html)
    saveData(uinfo,path)

流程十分简单：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

这题要怎么做

关注关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
爬取软科中国最好大学排名

这个例子是用request+bs+re来获取2016年的软科最好的大学排行榜需要爬取的网页：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html。爬取的内容：1、导入库# -*- coding=utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport bs4impor...
复制链接

扫一扫