爬虫练习（二）

最新推荐文章于 2019-08-31 19:53:00 发布

宇宙无敌帅超人

最新推荐文章于 2019-08-31 19:53:00 发布

阅读量3k

点赞数

分类专栏： python爬虫文章标签：爬虫大学排名 Python BeautifulSoup

本文链接：https://blog.csdn.net/weixin_40896352/article/details/80205972

版权

python爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

用requests + bs4库做的小练习：定向爬取中国大学排名

url : http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            #将每一个tr标签中的td标签存入一个列表tds中
            tds = tr('td')
            #向ulist中增加我们需要的字段，比如大学排名、大学名称，大学排分等 
            ulist.append([tds[0].string, tds[1].string, tds[2].string])

def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    #打印表头
    print(tplt.format("排名", "学校名称", "学校分数", chr(12288)))     
    for i in range(num):
        u = ulist[i]
        #表中其他信息输入格式要与表头相一致
        print(tplt.format(u[0], u[1], u[2], chr(12288)))     

def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html) 
    printUnivList(uinfo, 20)

if __name__ == '__main__':
    main()

经验总结：

1. 学习了用print.format函数进行排版输出

2. 利用 chr(12288)进行设置中文间隔对齐

宇宙无敌帅超人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫练习（二）

用requests + bs4库做的小练习：定向爬取中国大学排名url : http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.htmlimport requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests...
复制链接

扫一扫