中国大学排名定向爬虫
定向爬虫指的是只针对所给的url的页面爬取,不扩展爬取的爬虫。给的例子的网页采用静态页面的方式,是非常好的学习例子。
本次实例的要求:
- 输入:大学排名url
- 输出:大学排名信息的屏幕输出(排名,大学名称,总分)
url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html"
import requests
from bs4 import BeautifulSoup
import os
import re
import bs4
程序的结构的设计:
- 从网络上获取大学排名的网页内容getHTMLText()
- 提取网页内容中的信息到合适的数据结构fillUnivList()
- 利用数据结构展示并输出结果printUnivList()
分析页面可以知道