Python网络爬虫与信息提取-Day10-（实例）中国大学排名定向爬虫

最新推荐文章于 2024-09-19 23:38:37 发布

辣鸡翔

最新推荐文章于 2024-09-19 23:38:37 发布

阅读量2.7k

点赞数 2

分类专栏： python 网络爬虫文章标签： python 网络爬虫爬虫 url

本文链接：https://blog.csdn.net/chenxiang001/article/details/77911938

版权

python 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

网络爬虫

14 篇文章 0 订阅

订阅专栏

http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html

我们需要写一个程序，爬取大学排名，并将大学排名屏幕输出

功能描述：

输入：大学排名URL链接

输出：大学排名信息的屏幕输出（排名，大学名称，总分）

技术路线：requests‐bs4

定向爬虫：仅对输入URL进行爬取，不扩展爬取

我们首先要知道这个爬虫是否可行，也就是它的数据是否写在了HTML代码中，

因为有一部分数据是通过JavaScript脚本语言生成的，在这种情况下用BeautifulSoup库和requests库是无法获得信息的

我们打开网页可以看到它的信息是写在HTML代码中的，所以是可行的

此外我们还要看一下这个定向爬虫网站是否提供了robots协议

由于我们只访问这个网站的一个链接，所以我们可以手动地查看robots协议

我们打开http://www.zuihaodaxue.cn/robots.txt，发现网页不存在，说明这个网站并没有对网络爬虫做相关的限制，说明我们爬取大学排名的这个功能是完全可以合法的实现的

验证可行性之后我们需要对程序的结构做初步的设计

获取大学排名并且输出大学排名的相关信息，整个过程可以分为三个步骤：

步骤1：从网络上获取大学排名网页内容

步骤2：提取网页内容中信息到合适的数据结构

步骤3：利用数据结构展示并输出结果

它是一个典型的二维数据结构，所以针对这样的结构我们可以采取列表的方式

步骤1：getHTMLText() 从网络上获取大学排名网页内容

步骤2：fillUnivList() 提取网页内容中信息到合适的数据结构

步骤3：printUnivList() 利用数据结构展示并输出结果

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
    for i in range(num):
        u=ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))

def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs
main()

排名学校名称总分

1 清华大学 95.9

2 北京大学 82.6

3 浙江大学 80

4 上海交通大学 78.7

5 复旦大学 70.9

6 南京大学 66.1

7 中国科学技术大学 65.5

8 哈尔滨工业大学 63.5

9 华中科技大学 62.9

10 中山大学 62.1

11 东南大学 61.4

12 天津大学 60.8

13 同济大学 59.8

14 北京航空航天大学 59.6

15 四川大学 59.4

16 武汉大学 59.1

17 西安交通大学 58.9

18 南开大学 58.3

19 大连理工大学 56.9

20 山东大学 56.3

优化：

我们发现尽管输出了信息，但是对齐效果并不好

def printUnivList(ulist, num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
    for i in range(num):
        u=ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))

它使用了format方法中的相关格式，format方法中有两个重要属性：填充和宽度

填充指，用于填充的单个字符；宽度是指，槽输出的特定宽度

当中文字符宽度不够时，采用西文字符填充；中西文字符占用宽度不同

但字符宽度不够时用中文字符填充而不是西文字符填充，那么对齐的问题就解决了

UTF-8编码对应的中文空格信息叫做12188

我们可以用char(12188)来引入到函数中

def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))

完整代码：

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))

def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs
main()

排名　　　学校名称　　　总分

1 　　　清华大学　　　 95.9

2 　　　北京大学　　　 82.6

3 　　　浙江大学　　　 80

4 　　上海交通大学　　 78.7

5 　　　复旦大学　　　 70.9

6 　　　南京大学　　　 66.1

7 　中国科学技术大学　 65.5

8 　哈尔滨工业大学　　 63.5

9 　　华中科技大学　　 62.9

10 　　　中山大学　　　 62.1

11 　　　东南大学　　　 61.4