python爬虫大学排名（mooc）

最新推荐文章于 2024-04-26 01:45:18 发布

愿随我ღ

最新推荐文章于 2024-04-26 01:45:18 发布

阅读量277

点赞数

本文链接：https://blog.csdn.net/PC_small_wang/article/details/100996724

版权

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status
r.encoding = r.apparent_encoding
return r.text
except:
return “”

def fillUnivList(ulist, html):
soup = BeautifulSoup(html, “html.parser”)
for tr in soup.find(‘tbody’).children:
if isinstance(tr, bs4.element.Tag):
tds = tr(‘td’)
ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string])
pass

def printUnivList(ulist, num):
print("{: ^ 10}\t{: ^ 20}\t{: ^ 10}\t{: ^ 10}".format(“排名”, “学校名称”, “城市”, “总分”), chr(12288))
for i in range(num):
u=ulist[i]
print("{: ^ 10}\t{: ^ 20}\t{: ^ 10}\t{: ^ 10}".format(u[0], u[1], u[2], u[3]), chr(12288))
print(“Suc” + str(num))

def main():
unifo = []
url = “http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html”
html = getHTMLText(url)
fillUnivList(unifo, html)
printUnivList(unifo, 100)# 100 univs
main()

1运行的错误
在第一次试运行代码的时候出现如下错误:
for tr in soup.find(‘tbody’).children:
AttributeError: ‘NoneType’ object has no attribute ‘children’
提示错误信息是属性错误没有children这一属性。后来对照崇老师的代码，发现是我的url错误出现错误，导致并未爬取相关信息，从而soup变量并未存储相关的html文件信息。从而没有children这一属性。

2程序的设计
程序主要由四大函数构成，main（）函数，getHTMLText（）函数，fillUnivList（）函数，printUnivList（）函数。

3函数的功能

（1）main（）函数
首先程序的主要功能有三大块，获取html文件；分析文件信息和存储信息；打印信息。
（2）getHTMLTExt（）函数
getHTMLTExt（）函数利用requests库的get方法进行获取url的文本信息，并返回文本信息。
（3）fillUnivList（）函数
再进行调用fillUnivList（）函数；fillUnivList（）函数利用BeautifulSoup进行对html文件进行分析，在利用find方法查询需要的信息，在将信息存储在unlist之中。
（4）printUnivList（）函数
对存储在unlist之中的信息利用printUnivList（）函数进行打印相关格式。