Python实现中国大学排名的爬取

最新推荐文章于 2023-07-10 23:58:53 发布

MO__YE

最新推荐文章于 2023-07-10 23:58:53 发布

阅读量344

点赞数

分类专栏： PYTHON 文章标签： python 正则表达式 url

本文链接：https://blog.csdn.net/mo__ye/article/details/104706759

版权

PYTHON 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

期末小作业1：

反思：

代码美观度差的太远
三天不写python就模糊了一些函数用法
目标定好，第一时间的思路是面向过程而不是面向对象
面向对象的写法掌握不熟练，需多加练习

import bs4
import requests
from bs4 import BeautifulSoup

class BestUniversity:
    # 步骤0：传入url，headers                       __init__()
    # 步骤1：从网络上获取大学排名网页内容             parse_url()
    # 步骤2：提取网页内容中信息到合适的数据结构        fillUnivList()
    # 步骤3：利用数据结构展示并输出结果               printUnivList()

    def __init__(self):
        '''
        初始化，传入url与headers
        :param self:
        :return:
        '''
        self.url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
        self.headers = {
            "User - Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 80.0.3987.132Safari / 537.36"
        }
        self.time = 30
        self.uinfo = []
        self.html = self.parse_url()

    def parse_url(self):
        '''
        获取网站源码
        :param self:
        :return: decode()
        '''
        try:
            # print(self.url)
            response = requests.get(url=self.url, headers=self.headers, timeout=self.time)
            # print(response.content.decode())
            html = response.content.decode()
            # return response.content.decode()
            return html
        except:
            return ""

    def fillUnivList(self,html, ulist):
        # pass
        soup = BeautifulSoup(html, "html.parser")
        for tr in soup.find('tbody').children:
            if isinstance(tr, bs4.element.Tag):
                # pass
                tds = tr("td")
                ulist.append([tds[0].string, tds[1].string, tds[2].string])

    def printUnivList(self,ulist, num):
        # pass
        # fmat = "{0:^10}\t{1:{3}^10}\t{2:^10}"
        fmat = "{0:^10}\t{1:^6}\t{2:^10}"
        print(fmat.format("排名", "学校", "总分", chr(12888)))
        with open("BestUniversity.txt", "w", encoding="utf-8") as f:
            f.write(fmat.format("排名", "学校", "总分", chr(12888)))
        for i in range(num):
            u = ulist[i]
            print(fmat.format(u[0], u[1], u[2], chr(12888)))
            with open("BestUniversity.txt", "a", encoding="utf-8") as f:
                f.write('\n')
                f.write(fmat.format(u[0], u[1], u[2], chr(12888)))

    def run(self):
        # uinfo = []
        # html = self.parse_url()
        self.fillUnivList(self.html, self.uinfo)
        self.printUnivList(self.uinfo, 20)

if __name__ == '__main__':
    BU = BestUniversity()
    BU.run()

MO__YE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python实现中国大学排名的爬取

期末小作业1：反思：代码美观度差的太远三天不写python就模糊了一些函数用法目标定好，第一时间的思路是面向过程而不是面向对象面向对象的写法掌握不熟练，需多加练习import bs4import requestsfrom bs4 import BeautifulSoupclass BestUniversity: # 步骤0：传入url，headers ...
复制链接

扫一扫