cengci = re.compile(r’....(.*)')
爬取网页
def getData(baseurl):
datalist = []
html = askURL(baseurl) # 保存获取到的网页源码
soup = BeautifulSoup(html, “html.parser”) # soup是解析后的树形结构对象
for item in soup.find_all(‘tr’): # 查找符合要求的字符串形成列表
data = [] # 保存一个学校的所有信息
item = str(item)
#排名
paiming1 = re.findall(paiming, item) # re正则表达式查找指定字符串 0表示只要第一个 前面是标准后面是找的范围
if(not paiming1):
pass
else:
print(paiming1[0])
data.append(paiming1)
if(paiming1 in data):
#学校名字
xuexiao1 = re.findall(xuexiao, item)[0]
data.append(xuexiao1)
#得分
defen1 = re.findall(defen, item)[0]
data.append(defen1)
#星级
xingji1 = re.findall(xingji, item)[0]
data.append(xingji1)
#层次
cengci1 = re.findall(cengci, item)[0]
data.append(cengci1)