使用正则表达式和urllib模块爬取最好大学排名信息

本文介绍了如何使用Python的urllib模块配合正则表达式爬取特定网站上的大学排名信息。首先分析网页结构,然后处理页面提取所需数据,并通过代码展示了解析和输出结果的过程。同时,文中提到了使用BeautifulSoup库的另一种爬取方法,虽然URL有所变化,但同样能有效抓取排名内容。
摘要由CSDN通过智能技术生成

题目

使用urllib模块编程实现爬取网站的大学排名。
(网址:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html)
(1)获取网站页面,分析代码结构特征;
(2)处理页面,提取相关信息;
(3)解析数据,输出结果。

代码实现

Python3

import urllib.request
import re

# 获取指定url的源码信息
def getHTMLText(url):
    try:
        response = urllib.request.urlopen(url, timeout=30)
        html = response.read().decode('utf-8')
        return html
    except:
        return "access the web error!"
    return ""

# 根据具体结构匹配需要的排名信息,最终以列表的形式返回
def fullTextToSchoolList(html):
    # 正则匹配所有学校名称
    reg2 = r'<td><div align="left">(.*?)</div></td>'
    # 匹配排名信息
    reg = r'<td>(.*?)</td>'
    reg = re.compile(reg)
    reg2 = re.compile(reg2)
    ulists=re.findall(reg,html)
    unames=re.findall(reg2
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值