全国理科大学排名定向爬虫实例

最新推荐文章于 2024-07-30 17:23:09 发布

只要我足够菜，你们就骂不了我

最新推荐文章于 2024-07-30 17:23:09 发布

阅读量88

点赞数 2

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/jfukg/article/details/118836704

版权

Python 专栏收录该内容

3 篇文章 2 订阅

订阅专栏

全国理科大学排名（拿来练手就好别贪玩哦）
程序的结构设计
步骤1：从网页上获取大学排名网页内容getHTMLText()
步骤2：提取网页内容中信息到合适的数据结构fillUnivList()
步骤3：利用数据结构展示并输出结果printUnivList()

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
         return ""

def fillUnivList(ulist,html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds=tr('td')
            ulist.append([tds[0].text.strip(),tds[2].text.strip(),tds[5].text.strip()])
    pass

def printUnivList(ulist,num):
    print("{0:^10}\t{1:{3}^20}\t{2:^15}".format("排名","学校名称","投档线",chr(12288)))
    for i in range(1,num):
        u=ulist[i]
        print("{0:^10}\t{1:{3}^20}\t{2:^15}".format(u[0], u[1], u[2],chr(12288)))

def main():
    uinfo=[]
    url="https://www.dxsbb.com/news/1855.html"
    html=getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20) #只打印前20所学校的信息

if __name__ == '__main__':
    main()
#中文需要填充时，自动填充的是西文空格，所以需要另外使用char(12288)来另外定义填充的空格

在这里插入图片描述

只要我足够菜，你们就骂不了我

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
全国理科大学排名定向爬虫实例

全国理科大学排名（拿来练手就好别贪玩哦）程序的结构设计步骤1：从网页上获取大学排名网页内容getHTMLText()步骤2：提取网页内容中信息到合适的数据结构fillUnivList()步骤3：利用数据结构展示并输出结果printUnivList()import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url, timeout
复制链接

扫一扫

专栏目录