# =第二题:获取数据(爬虫)(35分)==============================# %% ---------------------------------def getHtml(url): # (10分) ‘’‘子函数:获取网页内容。这里网页使用的是utf-8编码’’’
return “” # 注意修改这一句
print(len(getHtml(“http://www.pku.edu.cn”))) # 调用一下这个函数
# %% ---------------------------------
def getMuseums(): # (10分) ‘’‘获取某一个省的博物馆信息 编程序从该省的页面中取得该省所有博物馆的相关信息 然后显示出来 ‘’’
# ------ 先获取链接及网页内容 (10分) ------ provName = ‘北京’ # 请务必改成你自己高中学籍所在的省)(留学生请用上海市)
‘’‘请打开网页 https://www.maigoo.com/goomai/197904.html 然后,在地图上点击打开你的省名所对应的网页, 为了节约时间,链接不用程序找,直接手工在地图上点击。 注:为了以防万一,如果上面网址不通,可以访问校内的备份的网页 http://cf.pku.edu.cn/tds/cfpy/material/museum/museum-beijing.html ‘’’ # 请手工修改这个省的url网址 url = “https://www.maigoo.com/goomai/181042.html”
# ---- 下面进行解析、显示每所博物馆的名称及级别(15分) # 提示:你可以使用正则表达式,也可以用BeautifulSoup(后者可能会更方便一点)