【Python爬虫学习】中国大学排名网页爬虫实战

最新推荐文章于 2023-12-09 16:58:47 发布

Johnny_sc

最新推荐文章于 2023-12-09 16:58:47 发布

阅读量237

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/Johnny_sc/article/details/107526880

版权

本文介绍如何使用Python爬虫抓取中国大学排名网页的数据，涉及requests库和BeautifulSoup解析，通过soup.find('tbody').children获取信息，利用isinstance()筛选Tag类型元素，并解决中文对齐问题。

摘要由CSDN通过智能技术生成

功能描述：
定向爬取中国大学排名网页的排名信息，包括学校名称，学校排名，所在省市

技术路线：
requests——bs4(BeautifulSoup)

核心操作：

1.熬制一锅汤

soup = BeautifulSoup(html,“html.parser”)

2. soup.find(‘tbody’).children：

在html页面中发现大学排名信息都存在：tbody标签下的名为’td’的tr标签中。找出包含所有tbody下的tr标签

3. 用isinstance()判断类型：

tr标签有的是Tag类型，有的不是，排名信息只存在Tag类型中，，留下Tag类型的tr标

4. 中文对齐问题

使用format函数搭配chr(12288)进行对齐操作

全部程序

import bs4
import requests
from bs4 import BeautifulSoup

def getHTMLTEXT(url):
    """通过最好大学排名网站url获得网页Html信息"""
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        print(</

最低0.47元/天解锁文章

Johnny_sc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Python爬虫学习】中国大学排名网页爬虫实战

功能描述：定向爬取中国大学排名网页的排名信息，包括学校名称，学校排名，所在省市技术路线：requests——bs4(BeautifulSoup)核心操作：1.熬制一锅汤soup = BeautifulSoup(html,“html.parser”)2. soup.find(‘tbody’).children：在html页面中发现大学排名信息都存在：tbody标签下的名为’td’的tr标签中。找出包含所有tbody下的tr标签3. 用isinstance()判断类型：tr标签有的是Tag类
复制链接

扫一扫

专栏目录