使用正则表达式和urllib模块爬取最好大学排名信息

最新推荐文章于 2022-03-25 19:24:21 发布

起个名字都这么男

最新推荐文章于 2022-03-25 19:24:21 发布

阅读量1.2k

点赞数 1

分类专栏： Python 文章标签： python 正则表达式 web 爬虫

本文链接：https://blog.csdn.net/qq_43672652/article/details/106302463

版权

本文介绍了如何使用Python的urllib模块配合正则表达式爬取特定网站上的大学排名信息。首先分析网页结构，然后处理页面提取所需数据，并通过代码展示了解析和输出结果的过程。同时，文中提到了使用BeautifulSoup库的另一种爬取方法，虽然URL有所变化，但同样能有效抓取排名内容。

摘要由CSDN通过智能技术生成

题目

使用urllib模块编程实现爬取网站的大学排名。
(网址：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html)
（1）获取网站页面，分析代码结构特征；
（2）处理页面，提取相关信息；
（3）解析数据，输出结果。

代码实现

Python3

import urllib.request
import re

# 获取指定url的源码信息
def getHTMLText(url):
    try:
        response = urllib.request.urlopen(url, timeout=30)
        html = response.read().decode('utf-8')
        return html
    except:
        return "access the web error!"
    return ""

# 根据具体结构匹配需要的排名信息，最终以列表的形式返回
def fullTextToSchoolList(html):
    # 正则匹配所有学校名称
    reg2 = r'<td><div align="left">(.*?)</div></td>'
    # 匹配排名信息
    reg = r'<td>(.*?)</td>'
    reg = re.compile(reg)
    reg2 = re.compile(reg2)
    ulists=re.findall(reg,html)
    unames=re.findall(reg2

最低0.47元/天解锁文章

起个名字都这么男

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
使用正则表达式和urllib模块爬取最好大学排名信息

题目使用urllib模块编程实现爬取网站的大学排名。(网址：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html)（1）获取网站页面，分析代码结构特征；（2）处理页面，提取相关信息；（3）解析数据，输出结果。代码实现Python3import urllib.requestimport re# 获取指定url的源码信息def getHTMLText(url): try: response = urllib.r
复制链接

扫一扫

专栏目录