这个例子是用request+bs+re来获取2016年的软科最好的大学排行榜
需要爬取的网页:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html。
爬取的内容:
1、导入库
# -*- coding=utf-8 -*-
import requests
from bs4 import BeautifulSoup
import bs4
import xlwt
import re
2、爬取流程
def getHTMLText(url):
pass
def fillUnivList(html):
pass
def saveData(datalist, savepath):
pass
if __name__ == '__main__':
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
path = r'./大学排名.xls'
html = getHTMLText(url)
uinfo = fillUnivList(html)
saveData(uinfo,path)
流程十分简单: