【Python爬虫学习】中国大学排名网页爬虫实战

本文介绍如何使用Python爬虫抓取中国大学排名网页的数据,涉及requests库和BeautifulSoup解析,通过soup.find('tbody').children获取信息,利用isinstance()筛选Tag类型元素,并解决中文对齐问题。
摘要由CSDN通过智能技术生成

功能描述:
定向爬取中国大学排名网页的排名信息,包括学校名称,学校排名,所在省市

技术路线:
requests——bs4(BeautifulSoup)

核心操作:

1.熬制一锅汤

soup = BeautifulSoup(html,“html.parser”)

2. soup.find(‘tbody’).children:

在html页面中发现大学排名信息都存在:tbody标签下的名为’td’的tr标签中。找出包含所有tbody下的tr标签

3. 用isinstance()判断类型:

tr标签有的是Tag类型,有的不是,排名信息只存在Tag类型中,,留下Tag类型的tr标

4. 中文对齐问题

使用format函数搭配chr(12288)进行对齐操作


全部程序
import bs4
import requests
from bs4 import BeautifulSoup

def getHTMLTEXT(url):
    """通过最好大学排名网站url获得网页Html信息"""
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        print(</
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值