逻辑思路是什么?
1. 获取页面
2. 处理页面,提取信息
3. 格式输出
先走面向过程编程:
1. 要定义3个函数,对应以上三个过程
2. 在__main__函数中传入参数,并执行以上三个过程
#!/usr/bin/python3
import bs4
import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
'''获取页面'''
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillUnivList(ulist, html):
'''处理页面'''
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[3].string])
def printUnivList(uli