【Python爬虫学习】中国大学排名定向实战

最新推荐文章于 2024-07-10 19:27:42 发布

Johnny_sc

最新推荐文章于 2024-07-10 19:27:42 发布

阅读量259

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/Johnny_sc/article/details/107486422

版权

一、基本架构

用到的库：requests、bs4(BeautifulSoup)

1.定向爬取中国大学排名网的网页信息

requests定向爬取网页信息

import bs4
import requests
from bs4 import BeautifulSoup

def getHTMLTEXT(url):
    """通过最好大学排名网站url获得网页Html信息"""
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        print("网页信息爬取成功！")
        return r.text
    except:
        print("爬取失败")

2.从爬取的html页面中提取出大学排名信息

关键操作：

（1）从html页面中发现大学的信息都包含在tbody标签中，

（2）tbody标签含有的子节点不一定都是bs4库中的Tag类型，用isinstance(a,b)区分一下 //a是否是b类型的一个实例化？

（3）将包含院校信息的tr标签(即名称为td的标签)存入列表tds

def fillUnivList

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Johnny_sc

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Python爬虫学习】中国大学排名定向实战

一、基本架构用到的库：requests、bs4(BeautifulSoup)1.定向爬取中国大学排名网的网页信息requests定向爬取网页信息import bs4import requestsfrom bs4 import BeautifulSoupdef getHTMLTEXT(url): """通过最好大学排名网站url获得网页Html信息""" try: r = requests.get(url) r.raise_for_status(
复制链接

扫一扫