Python爬取软科中国大学排名2020版网页

Python爬取软科中国大学排名2020版网页

问题起因:

复习爬虫时发现之前代码爬取的软科中国大学排名网站页面变了,原来的爬虫就不能再使用了,所以我对爬虫进行了更新,使之恢复可用状态,并增加了写入Excel表格部分

目标页面:

软科——中国大学排名http://www.shanghairanking.cn/rankings/bcur/2020

爬虫方法设计:

方法:
(1)页面获取方法:getHTMLText(url)
(2)页面解读方法:fillUnivList(ulist,html)
(3)效果打印方法:printUnivList(ulist,num)
(4)写入Excel方法:save(path,ulist)

参数解读:
(1)ulist——存储解读结果的列表
(2)html——方法(1)读取的html页面
(3)num——爬取效果展示的数量
(4)path——写入的Excel的路径

用到的Python方法及更新部分讲解:

(1)使用format()函数对齐:
菜鸟教程:https://www.runoob.com/python/att-string-format.html
网友踩坑:https://blog.csdn.net/Andone_hsx/article/details/84025828

(2)原代码无法获取新网页学校名:
这是因为新页面的标签结构发生了一些变化,新页面的校名包裹在了a标签之内,父一级的td标签解读不到,老版网页包裹在div标签内就可以解读到
页面结构变化
所以我在原先代码的基础是又重新查询了一遍a标签,ulist的第二个元素相应作出更改
查询a标签

(3)新页面的标签内文本带有很长的空格,这个直接用strip()方法去掉即可,如上图

(4)instance方法使用:
菜鸟教程:https://www.runoob.com/python/python-func-isinstance.html

(5)关于写入Excel表:
目前只能使用 .xls 和 .csv 格式,.xlsx格式无法识别gbk编码,难受,小伙伴可以写入 .xls 再另存为成 .xlsx 格式,小伙伴如果有方法的话也可以在博客下留言哦

代码:

import requests
import re
import bs4
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 
  • 5
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 25
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值