用python爬虫爬取2024年中国大学排行

最新推荐文章于 2024-05-11 00:42:43 发布

2401_83704218

最新推荐文章于 2024-05-11 00:42:43 发布

阅读量457

点赞数 4

分类专栏：程序员文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83704218/article/details/138098174

版权

程序员专栏收录该内容

446 篇文章 3 订阅

订阅专栏

cengci = re.compile(r’....(.*)')

爬取网页

def getData(baseurl):

datalist = []

html = askURL(baseurl) # 保存获取到的网页源码

soup = BeautifulSoup(html, “html.parser”) # soup是解析后的树形结构对象

for item in soup.find_all(‘tr’): # 查找符合要求的字符串形成列表

data = [] # 保存一个学校的所有信息

item = str(item)

#排名

paiming1 = re.findall(paiming, item) # re正则表达式查找指定字符串 0表示只要第一个前面是标准后面是找的范围

if(not paiming1):

pass

else:

print(paiming1[0])

data.append(paiming1)

if(paiming1 in data):

#学校名字

xuexiao1 = re.findall(xuexiao, item)[0]

data.append(xuexiao1)

#得分

defen1 = re.findall(defen, item)[0]

data.append(defen1)

#星级

xingji1 = re.findall(xingji, item)[0]

data.append(xingji1)

#层次

cengci1 = re.findall(cengci, item)[0]

data.append(cengci1)

datalist.append(data) # 把处理好的一个学校信息放入datalist中

return datalist

得到指定一个url网页信息内容

def askURL(url):

我的初始访问user agent

head = { # 模拟浏览器头部信息，向豆瓣服务器发送消息伪装用的

“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36”

}

用户代理表示告诉豆瓣服务器我们是什么类型的机器–浏览器本质是告诉浏览器我们可以接受什么水平的文件内容

request = urllib.request.Request(url, headers=head) # 携带头部信息访问url

用request对象访问

html = “”

try:

response = urllib.request.urlopen(request) # 用urlopen传递封装好的request对象

html = response.read().decode(“utf-8”) # read 读取可以解码防治乱码

print(html)

except urllib.error.URLError as e:

if hasattr(e, “code”):

print(e.code) # 打印错误代码

if hasattr(e, “reason”):

print(e.reason) # 打印错误原因

return html

3保存数据

def saveData(datalist, savepath):

book = xlwt.Workbook(encoding=“utf-8”, style_compression=0) # 创建workbook对象样式压缩效果

sheet = book.add_sheet(‘中国大学排名’, cell_overwrite_ok=True) # 创建工作表一个表单 cell覆盖

for i in range(0, 640):

print(“第%d条” % (i + 1))

data = datalist[i]

print(data)

for j in range(0, 5): # 每一行数据保存进去

sheet.write(i , j, data[j]) # 数据

book.save(savepath) # 保存数据表

#主函数

if name == “main”: # 当程序执行时

#调用函数程序执行入口

main()

print(“爬取完毕！”)

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！**

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
用python爬虫爬取2024年中国大学排行

以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！**
复制链接

扫一扫

专栏目录

博客等级

码龄147天

446
原创

6503
点赞

6534
收藏

4464
粉丝

关注

私信

热门文章

分类专栏

程序员 446篇

最新评论

带你玩转Python爬虫（爬取电影资源篇）
m0_75037845: 我就是想用使用 bs4 或者 css选择器，提取出这25部电影的信息这种输出格式：电影名 - 上映时间 - 时长
带你玩转Python爬虫（爬取电影资源篇）
m0_75037845: [code=python] import requests from bs4 import BeautifulSoup url = "https://www.imdb.com/chart/top/?ref_=nv_mv_250" def crawl_movie_info(url): response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') movie_title = soup.find('div', class_='movie-titleipc-title__text').h3.text year = soup.find('div', class_='sc-b189961a-8 kLaxqf cli-title-metadata-item').text time = soup.find('div', class_='sc-b189961a-8 kLaxqf cli-title-metadata-item').text movie_info = { 'movie_title': title, 'year': year, 'time': time, } [/code] 请问可以告诉我哪里错了吗，本人python水平非常低....
（转）值传递和引用传递实例讲解(1)
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
为什么说Java程序员到了必须掌握SpringBoot的时候
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
为什么说Java程序员到了必须掌握SpringBoot的时候
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。