第2关：获取新闻标题和链接_本关任务:前一关我们已经用requests获得了湖大首页的网页文件,这一关在此基础上对-CSDN博客

本文链接：https://blog.csdn.net/qq_63600514/article/details/134981144

任务描述

本关任务：前一关我们已经用requests获得了湖大首页的网页文件，这一关在此基础上对网页进行解析，获取首页新闻的标题和链接并分别保存到两个列表中，最后将两个列表的内容保存到文本文件中。

文本文件的格式如图所示：

文本文件格式示意图

编程要求

根据提示，在右侧编辑器补充代码，获取首页新闻的标题和链接并保存到文本文件。

测试说明

平台会对你编写的代码进行测试，比对你输出的结果与实际正确的结果，只有所有结果全部正确才算完成本关任务。

# -*- coding: utf-8 -*-
"""
Created on Mon Mar 16 16:36:53 2020

@author: Administrator
"""

import requests
import bs4
from bs4 import BeautifulSoup

url="http://www.hnu.edu.cn/"
headers={
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'
}
filename='hnu.txt'

def gethtml(url):
    response=requests.get(url=url,headers=headers)
    response.encoding='utf-8'
    return response.text

def gettitle(html):
    # 请按下面的注释提示添加代码，完成相应功能
    ###### Begin ######
    # 1.解析网页，获取湖大首页上的新闻标题和链接,分别放入titles和hrefs列表
    titles=[]
    hrefs=[]
    soup=BeautifulSoup(html,'html.parser')
    res = soup.find("div", class_="hdxw-right fr")
    tag_a = res.find_all("a", target="_blank")
    for a in tag_a:
        title_s=a.get('title')
        href_s=a.get('href')
        titles.append(title_s)
        hrefs.append(href_s)
    ####### End #######
    return titles,hrefs

def saveinfo(titles,hrefs,filename):
    # 请按下面的注释提示添加代码，完成相应功能
    ###### Begin ######
    # 2.将titles和hrefs列表中的内容保存到文件文件
    for i,j in zip(titles,hrefs):
        with open('hnu.txt','w') as f:
            txt=f.write(i)
        with open('hun.txt','w') as f:
            txt=f.write(j)
    ####### End #######

html=gethtml(url)
titles,hrefs=gettitle(html)
saveinfo(titles,hrefs,filename)