伟大的CSND (123321)

编写一个简单的网页 

作业1:
编写一个简单的网页,要求:
(1)至少包括html、head、title、body、a标签。
(2)a标签至少包含href、class属性。
<!DOCTYPE html>  
<html lang="zh-CN">  
<head>  
    <meta charset="UTF-8">  
    <meta name="viewport" content="width=device-width, initial-scale=1.0">  
    <title>简单的网页示例</title>  
    <!-- 如果需要,可以在这里添加样式表链接,例如:<link rel="stylesheet" href="styles.css"> -->  
</head>  
<body>  
    <h1>欢迎来到我的网页</h1>  
    <p>这是一个简单的网页示例。</p>  
  
    <!-- a标签包含href和class属性 -->  
    <a href="https://www.example.com" class="my-link">点击这里访问示例网站</a>  
  
    <!-- 如果需要,可以在这里添加更多的HTML内容 -->  
  
</body>  
</html>

作业5:
已知index.html网页的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》填空题</title>
    </head>
    <body>
        <p id="list">网站列表</p>
        <p class="txt">百度 - Baidu</p>
        <a href="http://www.baidu.com" class="site">百度</a><br/>
        <p class="txt">腾讯 - Tencent</p>
        <a href="http://www.tencent.com" class="site">腾讯</a><br/>
        <p class="txt">搜狐 - Sohu</p>
        <a href="http://www.sohu.com" class="site">搜狐</a><br/>
        <p class="txt">湘潭理工学院</p>
        <a href="http://www.xtit.edu.cn" class="home">
            <img src="xtit.png" alt="暂无图片" height="50px" style="background-color: gray;">
        </a>
    </body>
</html>

编写Python程序,输出所有a标签的href属性的值。 

 

编写Python程序,输出所有a标签的href属性的值。
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有的a标签
a_tags = soup.find_all('a')
# 输出所有a标签的href属性值
for tag in a_tags:
    print(tag.get('href'))

作业6:
已知index.html网页的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》填空题</title>
    </head>
    <body>
        <p id="list">网站列表</p>
        <p class="txt">百度 - Baidu</p>
        <a href="http://www.baidu.com" class="site">百度</a><br/>
        <p class="txt">腾讯 - Tencent</p>
        <a href="http://www.tencent.com" class="site">腾讯</a><br/>
        <p class="txt">搜狐 - Sohu</p>
        <a href="http://www.sohu.com" class="site">搜狐</a><br/>
        <p class="txt">湘潭理工学院</p>
        <a href="http://www.xtit.edu.cn" class="home">
            <img src="xtit.png" alt="暂无图片" height="50px" style="background-color: gray;">
        </a>
    </body>
</html>

编写Python程序,输出所有img标签的src属性的值。 

编写Python程序,输出所有img标签的src属性的值。
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有的a标签
img_tags = soup.find_all('img')

# 输出所有a标签的href属性值
for tag in img_tags:
    print(tag.get('src'))

作业7:
已知index.html网页的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》填空题</title>
    </head>
    <body>
        <p id="list">网站列表</p>
        <p class="txt">百度 - Baidu</p>
        <a href="http://www.baidu.com" class="site">百度</a><br/>
        <p class="txt">腾讯 - Tencent</p>
        <a href="http://www.tencent.com" class="site">腾讯</a><br/>
        <p class="txt">搜狐 - Sohu</p>
        <a href="http://www.sohu.com" class="site">搜狐</a><br/>
        <p class="txt">湘潭理工学院</p>
        <a href="http://www.xtit.edu.cn" class="home">
            <img src="xtit.png" alt="暂无图片" height="50px" style="background-color: gray;">
        </a>
    </body>
</html>

编写Python程序,输出所有p标签的文本。 

编写Python程序,输出所有p标签的文本。
import requests
from bs4 import BeautifulSoup
from lxml import etree

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index.html"
response = open(url, "r", encoding="utf-8")
str = response.read()
html = etree.HTML(str)

# 逐级搜索p标签
for elem in html.xpath("/html/body/p/text()"):
     print(elem)

作业8:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="multiplewrap center">
          <div class="multiple">
                <div class="multiplemin" aos="fade-up">
                    <a href="/zhyw/615.html" target="_blank" class="item">
                        <div class="data">
                     <h3>2024-05-15</h3>
                  </div>
                  <div class="imgbox">
                      <img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
                  </div>
                  <div class="text">
                      <h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
                  </div>
               </a>
               <a href="/zhyw/611.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-11</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
                  </div>
                  <div class="text">
                     <h3>校党委书记xx带队赴yy&ldquo;访企拓岗&rdquo;</h3>
                  </div>
               </a>
               <a href="/zhyw/607.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-07</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
                  </div>
                  <div class="text">
                     <h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
                     </div>
               </a>
               <a href="/zhyw/590.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-05</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
                  </div>
                  <div class="text">
                     <h3>别太羡慕!&ldquo;新青媒&rdquo;姐妹&ldquo;搭子&rdquo;考研上岸!</h3>
                  </div>
               </a>
            </div>
         </div>
      </div>
    </body>
</html>

 操作:显示所有新闻的缩略图片URL。
要求:
(1)获取所有<a><div><img>标签的src属性的值。
(2)每行显示一个图片src属性的值。

操作:显示所有新闻的缩略图片URL。
要求:
(1)获取所有<a><div><img>标签的src属性的值。
(2)每行显示一个图片src属性的值。
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有的a标签
img_tags = soup.find_all('img')

# 输出所有a标签的href属性值
for tag in img_tags:
    print(tag.get('src'))

作业9:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="multiplewrap center">
          <div class="multiple">
                <div class="multiplemin" aos="fade-up">
                    <a href="/zhyw/615.html" target="_blank" class="item">
                        <div class="data">
                     <h3>2024-05-15</h3>
                  </div>
                  <div class="imgbox">
                      <img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
                  </div>
                  <div class="text">
                      <h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
                  </div>
               </a>
               <a href="/zhyw/611.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-11</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
                  </div>
                  <div class="text">
                     <h3>校党委书记xx带队赴yy&ldquo;访企拓岗&rdquo;</h3>
                  </div>
               </a>
               <a href="/zhyw/607.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-07</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
                  </div>
                  <div class="text">
                     <h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
                     </div>
               </a>
               <a href="/zhyw/590.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-05</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
                  </div>
                  <div class="text">
                     <h3>别太羡慕!&ldquo;新青媒&rdquo;姐妹&ldquo;搭子&rdquo;考研上岸!</h3>
                  </div>
               </a>
            </div>
         </div>
      </div>
    </body>
</html>

操作:显示所有新闻的标题。
要求:
(1)获取所有新闻的标题。
(2)每行显示一条新闻。 

操作:显示所有新闻的标题。
要求:
(1)获取所有新闻的标题。
(2)每行显示一条新闻。
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有class为'text'的<div>标签,因为新闻标题位于这些标签内
news_titles = soup.find_all('div', class_='text')

# 遍历找到的每个<div>标签,并打印里面的<h3>标签内容(即新闻标题)
for title in news_titles:
    title = title.h3.text.strip()  # 获取<h3>标签的文本内容并去除前后空白
    print(title)

作业10:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="multiplewrap center">
          <div class="multiple">
                <div class="multiplemin" aos="fade-up">
                    <a href="/zhyw/615.html" target="_blank" class="item">
                        <div class="data">
                     <h3>2024-05-15</h3>
                  </div>
                  <div class="imgbox">
                      <img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
                  </div>
                  <div class="text">
                      <h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
                  </div>
               </a>
               <a href="/zhyw/611.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-11</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
                  </div>
                  <div class="text">
                     <h3>校党委书记xx带队赴yy&ldquo;访企拓岗&rdquo;</h3>
                  </div>
               </a>
               <a href="/zhyw/607.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-07</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
                  </div>
                  <div class="text">
                     <h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
                     </div>
               </a>
               <a href="/zhyw/590.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-05</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
                  </div>
                  <div class="text">
                     <h3>别太羡慕!&ldquo;新青媒&rdquo;姐妹&ldquo;搭子&rdquo;考研上岸!</h3>
                  </div>
               </a>
            </div>
         </div>
      </div>
    </body>
</html>

操作:显示所有新闻的标题和发表时间。
要求:
(1)获取所有新闻的标题和发表时间。
(2)每行显示一条新闻的标题和发表时间,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会      2024-05-15 

操作:显示所有新闻的标题和发表时间。
要求:
(1)获取所有新闻的标题和发表时间。
(2)每行显示一条新闻的标题和发表时间,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会      2024-05-15
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')

# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_dates = soup.find_all('div', class_='data')

# 遍历新闻标题和日期,按顺序配对并打印
for title, date in zip(news_titles, news_dates):
    # 获取<h3>标签中的文本作为标题,去除多余空格
    title = title.h3.text.strip()
    # 获取<h3>标签中的文本作为日期,去除多余空格
    date = date.h3.text.strip()
    # 打印标题和日期,使用\t分隔
    print(f'{title}\t{date}')

作业11:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="multiplewrap center">
          <div class="multiple">
                <div class="multiplemin" aos="fade-up">
                    <a href="/zhyw/615.html" target="_blank" class="item">
                        <div class="data">
                     <h3>2024-05-15</h3>
                  </div>
                  <div class="imgbox">
                      <img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
                  </div>
                  <div class="text">
                      <h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
                  </div>
               </a>
               <a href="/zhyw/611.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-11</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
                  </div>
                  <div class="text">
                     <h3>校党委书记xx带队赴yy&ldquo;访企拓岗&rdquo;</h3>
                  </div>
               </a>
               <a href="/zhyw/607.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-07</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
                  </div>
                  <div class="text">
                     <h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
                     </div>
               </a>
               <a href="/zhyw/590.html" target="_blank" class="item">
                  <div class="data">
                     <h3>2024-05-05</h3>
                  </div>
                  <div class="imgbox">
                     <img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
                  </div>
                  <div class="text">
                     <h3>别太羡慕!&ldquo;新青媒&rdquo;姐妹&ldquo;搭子&rdquo;考研上岸!</h3>
                  </div>
               </a>
            </div>
         </div>
      </div>
    </body>
</html>

操作:显示所有新闻的标题和URL。
要求:
(1)获取所有新闻的标题和URL。
(2)每行显示一条新闻的标题和URL,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会       /zhyw/615.html 

操作:显示所有新闻的标题和URL。
要求:
(1)获取所有新闻的标题和URL。
(2)每行显示一条新闻的标题和URL,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会       /zhyw/615.html
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')

# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_urls = soup.find_all('a')

# 遍历新闻标题和url,按顺序配对并打印
for title, url in zip(news_titles, news_urls):
    # 获取<h3>标签中的文本作为标题,去除多余空格
    title = title.h3.text.strip()
    # 获取url
    url = url.get('href')
    # 打印标题和url,使用\t分隔
    print(f'{title}\t{url}')

作业12:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="information-r" aos="fade-left">
         <div class="information-rmin">
                <a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
               <div class="text">
                  <h3>xxx学院学生课程成绩、学分认定审批表</h3>
                  <p>2024.04.22</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
               <div class="text">
                  <h3>xxx学院体育免修审批表</h3>
                  <p>2024.04.12</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
               <div class="text">
                  <h3>xxx学院课程免修申请表</h3>
                  <p>2023.06.01</p>
               </div>
               <div class="more">立即下载</div>
            </a>
            </div>
        </div>
    </body>
</html>

操作:显示所有下载资源的名称。
要求:
(1)获取所有下载资源的名称。
(2)每行显示一个资源名称,形如:
xxx学院学生课程成绩、学分认定审批表 

操作:显示所有下载资源的名称。
要求:
(1)获取所有下载资源的名称。
(2)每行显示一个资源名称,形如:
xxx学院学生课程成绩、学分认定审批表
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有class为'text'的<div>标签,因为标题位于这些标签内
news_titles = soup.find_all('div', class_='text')

# 遍历找到的每个<div>标签,并打印里面的<h3>标签内容(即标题)
for title in news_titles:
    title = title.h3.text.strip()  # 获取<h3>标签的文本内容并去除前后空白
    print(title)

作业13:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="information-r" aos="fade-left">
         <div class="information-rmin">
                <a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
               <div class="text">
                  <h3>xxx学院学生课程成绩、学分认定审批表</h3>
                  <p>2024.04.22</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
               <div class="text">
                  <h3>xxx学院体育免修审批表</h3>
                  <p>2024.04.12</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
               <div class="text">
                  <h3>xxx学院课程免修申请表</h3>
                  <p>2023.06.01</p>
               </div>
               <div class="more">立即下载</div>
            </a>
            </div>
        </div>
    </body>
</html>

操作:显示所有下载资源的名称、上传时间。
要求:
(1)获取所有下载资源的名称、上传时间。
(2)每行显示一个资源名称、上传时间,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表        2024.04.22 

操作:显示所有下载资源的名称、上传时间。
要求:
(1)获取所有下载资源的名称、上传时间。
(2)每行显示一个资源名称、上传时间,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表        2024.04.22
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')

# 遍历标题和日期,按顺序配对并打印
for i in news_titles:
    # 获取<h3>标签中的文本作为标题,去除多余空格
    title = i.h3.text.strip()
    # 获取<h3>标签中的文本作为日期,去除多余空格
    date = i.p.text.strip()
    # 打印标题和日期,使用\t分隔
    print(f'{title}\t{date}')

作业14:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="information-r" aos="fade-left">
         <div class="information-rmin">
                <a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
               <div class="text">
                  <h3>xxx学院学生课程成绩、学分认定审批表</h3>
                  <p>2024.04.22</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
               <div class="text">
                  <h3>xxx学院体育免修审批表</h3>
                  <p>2024.04.12</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
               <div class="text">
                  <h3>xxx学院课程免修申请表</h3>
                  <p>2023.06.01</p>
               </div>
               <div class="more">立即下载</div>
            </a>
            </div>
        </div>
    </body>
</html>

操作:显示所有下载资源的名称、URL。
要求:
(1)获取所有下载资源的名称、URL。
(2)每行显示一个资源名称、URL,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表        ….doc 

操作:显示所有下载资源的名称、URL。
要求:
(1)获取所有下载资源的名称、URL。
(2)每行显示一个资源名称、URL,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表        ….doc
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')

# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_urls = soup.find_all('a')

# 遍历标题和url,按顺序配对并打印
for title, url in zip(news_titles, news_urls):
    # 获取<h3>标签中的文本作为标题,去除多余空格
    title = title.h3.text.strip()
    # 获取url
    url = url.get('href')
    # 打印标题和url,使用\t分隔
    print(f'{title}\t{url}')

作业15:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
    <head>
        <title>《数据采集与预处理》操作题</title>
    </head>
    <body>
        <div class="information-r" aos="fade-left">
         <div class="information-rmin">
                <a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
               <div class="text">
                  <h3>xxx学院学生课程成绩、学分认定审批表</h3>
                  <p>2024.04.22</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
               <div class="text">
                  <h3>xxx学院体育免修审批表</h3>
                  <p>2024.04.12</p>
               </div>
               <div class="more">立即下载</div>
            </a>
                <a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
               <div class="text">
                  <h3>xxx学院课程免修申请表</h3>
                  <p>2023.06.01</p>
               </div>
               <div class="more">立即下载</div>
            </a>
            </div>
        </div>
    </body>
</html>

操作:显示所有资源的上传时间、名称和URL。
要求:
(1)获取所有资源的上传时间、名称和URL。
(2)每行显示一个资源的上传时间、名称和URL,两者之间使用跳转分隔,形如:
2024.04.22      xxx学院学生课程成绩、学分认定审批表      ...doc 

操作:显示所有资源的上传时间、名称和URL。
要求:
(1)获取所有资源的上传时间、名称和URL。
(2)每行显示一个资源的上传时间、名称和URL,两者之间使用跳转分隔,形如:
2024.04.22      xxx学院学生课程成绩、学分认定审批表      ...doc
import requests
from bs4 import BeautifulSoup

# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")

# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')

# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_urls = soup.find_all('a')

# 遍历标题和url,按顺序配对并打印
for i, j in zip(news_titles, news_urls):
    # 获取<h3>标签中的文本作为标题,去除多余空格
    title = i.h3.text.strip()
    # 获取日期,去除多余空格
    date = i.p.text.strip()
    # 获取url
    url = j.get('href')
    # 打印标题和url,使用\t分隔
    print(f'{date}\t{title}\t{url}')

  • 19
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值