编写一个简单的网页
作业1:
编写一个简单的网页,要求:
(1)至少包括html、head、title、body、a标签。
(2)a标签至少包含href、class属性。
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>简单的网页示例</title>
<!-- 如果需要,可以在这里添加样式表链接,例如:<link rel="stylesheet" href="styles.css"> -->
</head>
<body>
<h1>欢迎来到我的网页</h1>
<p>这是一个简单的网页示例。</p>
<!-- a标签包含href和class属性 -->
<a href="https://www.example.com" class="my-link">点击这里访问示例网站</a>
<!-- 如果需要,可以在这里添加更多的HTML内容 -->
</body>
</html>
作业5:
已知index.html网页的源代码如下:
<html>
<head>
<title>《数据采集与预处理》填空题</title>
</head>
<body>
<p id="list">网站列表</p>
<p class="txt">百度 - Baidu</p>
<a href="http://www.baidu.com" class="site">百度</a><br/>
<p class="txt">腾讯 - Tencent</p>
<a href="http://www.tencent.com" class="site">腾讯</a><br/>
<p class="txt">搜狐 - Sohu</p>
<a href="http://www.sohu.com" class="site">搜狐</a><br/>
<p class="txt">湘潭理工学院</p>
<a href="http://www.xtit.edu.cn" class="home">
<img src="xtit.png" alt="暂无图片" height="50px" style="background-color: gray;">
</a>
</body>
</html>
编写Python程序,输出所有a标签的href属性的值。
编写Python程序,输出所有a标签的href属性的值。
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有的a标签
a_tags = soup.find_all('a')
# 输出所有a标签的href属性值
for tag in a_tags:
print(tag.get('href'))
作业6:
已知index.html网页的源代码如下:
<html>
<head>
<title>《数据采集与预处理》填空题</title>
</head>
<body>
<p id="list">网站列表</p>
<p class="txt">百度 - Baidu</p>
<a href="http://www.baidu.com" class="site">百度</a><br/>
<p class="txt">腾讯 - Tencent</p>
<a href="http://www.tencent.com" class="site">腾讯</a><br/>
<p class="txt">搜狐 - Sohu</p>
<a href="http://www.sohu.com" class="site">搜狐</a><br/>
<p class="txt">湘潭理工学院</p>
<a href="http://www.xtit.edu.cn" class="home">
<img src="xtit.png" alt="暂无图片" height="50px" style="background-color: gray;">
</a>
</body>
</html>
编写Python程序,输出所有img标签的src属性的值。
编写Python程序,输出所有img标签的src属性的值。
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有的a标签
img_tags = soup.find_all('img')
# 输出所有a标签的href属性值
for tag in img_tags:
print(tag.get('src'))
作业7:
已知index.html网页的源代码如下:
<html>
<head>
<title>《数据采集与预处理》填空题</title>
</head>
<body>
<p id="list">网站列表</p>
<p class="txt">百度 - Baidu</p>
<a href="http://www.baidu.com" class="site">百度</a><br/>
<p class="txt">腾讯 - Tencent</p>
<a href="http://www.tencent.com" class="site">腾讯</a><br/>
<p class="txt">搜狐 - Sohu</p>
<a href="http://www.sohu.com" class="site">搜狐</a><br/>
<p class="txt">湘潭理工学院</p>
<a href="http://www.xtit.edu.cn" class="home">
<img src="xtit.png" alt="暂无图片" height="50px" style="background-color: gray;">
</a>
</body>
</html>
编写Python程序,输出所有p标签的文本。
编写Python程序,输出所有p标签的文本。
import requests
from bs4 import BeautifulSoup
from lxml import etree
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index.html"
response = open(url, "r", encoding="utf-8")
str = response.read()
html = etree.HTML(str)
# 逐级搜索p标签
for elem in html.xpath("/html/body/p/text()"):
print(elem)
作业8:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="multiplewrap center">
<div class="multiple">
<div class="multiplemin" aos="fade-up">
<a href="/zhyw/615.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-15</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
</div>
<div class="text">
<h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
</div>
</a>
<a href="/zhyw/611.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-11</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
</div>
<div class="text">
<h3>校党委书记xx带队赴yy“访企拓岗”</h3>
</div>
</a>
<a href="/zhyw/607.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-07</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
</div>
<div class="text">
<h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
</div>
</a>
<a href="/zhyw/590.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-05</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
</div>
<div class="text">
<h3>别太羡慕!“新青媒”姐妹“搭子”考研上岸!</h3>
</div>
</a>
</div>
</div>
</div>
</body>
</html>
操作:显示所有新闻的缩略图片URL。
要求:
(1)获取所有<a><div><img>标签的src属性的值。
(2)每行显示一个图片src属性的值。
操作:显示所有新闻的缩略图片URL。
要求:
(1)获取所有<a><div><img>标签的src属性的值。
(2)每行显示一个图片src属性的值。
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有的a标签
img_tags = soup.find_all('img')
# 输出所有a标签的href属性值
for tag in img_tags:
print(tag.get('src'))
作业9:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="multiplewrap center">
<div class="multiple">
<div class="multiplemin" aos="fade-up">
<a href="/zhyw/615.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-15</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
</div>
<div class="text">
<h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
</div>
</a>
<a href="/zhyw/611.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-11</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
</div>
<div class="text">
<h3>校党委书记xx带队赴yy“访企拓岗”</h3>
</div>
</a>
<a href="/zhyw/607.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-07</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
</div>
<div class="text">
<h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
</div>
</a>
<a href="/zhyw/590.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-05</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
</div>
<div class="text">
<h3>别太羡慕!“新青媒”姐妹“搭子”考研上岸!</h3>
</div>
</a>
</div>
</div>
</div>
</body>
</html>
操作:显示所有新闻的标题。
要求:
(1)获取所有新闻的标题。
(2)每行显示一条新闻。
操作:显示所有新闻的标题。
要求:
(1)获取所有新闻的标题。
(2)每行显示一条新闻。
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有class为'text'的<div>标签,因为新闻标题位于这些标签内
news_titles = soup.find_all('div', class_='text')
# 遍历找到的每个<div>标签,并打印里面的<h3>标签内容(即新闻标题)
for title in news_titles:
title = title.h3.text.strip() # 获取<h3>标签的文本内容并去除前后空白
print(title)
作业10:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="multiplewrap center">
<div class="multiple">
<div class="multiplemin" aos="fade-up">
<a href="/zhyw/615.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-15</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
</div>
<div class="text">
<h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
</div>
</a>
<a href="/zhyw/611.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-11</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
</div>
<div class="text">
<h3>校党委书记xx带队赴yy“访企拓岗”</h3>
</div>
</a>
<a href="/zhyw/607.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-07</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
</div>
<div class="text">
<h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
</div>
</a>
<a href="/zhyw/590.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-05</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
</div>
<div class="text">
<h3>别太羡慕!“新青媒”姐妹“搭子”考研上岸!</h3>
</div>
</a>
</div>
</div>
</div>
</body>
</html>
操作:显示所有新闻的标题和发表时间。
要求:
(1)获取所有新闻的标题和发表时间。
(2)每行显示一条新闻的标题和发表时间,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会 2024-05-15
操作:显示所有新闻的标题和发表时间。
要求:
(1)获取所有新闻的标题和发表时间。
(2)每行显示一条新闻的标题和发表时间,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会 2024-05-15
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')
# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_dates = soup.find_all('div', class_='data')
# 遍历新闻标题和日期,按顺序配对并打印
for title, date in zip(news_titles, news_dates):
# 获取<h3>标签中的文本作为标题,去除多余空格
title = title.h3.text.strip()
# 获取<h3>标签中的文本作为日期,去除多余空格
date = date.h3.text.strip()
# 打印标题和日期,使用\t分隔
print(f'{title}\t{date}')
作业11:
某学院的新闻网页显示了最近的所有新闻,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="multiplewrap center">
<div class="multiple">
<div class="multiplemin" aos="fade-up">
<a href="/zhyw/615.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-15</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240515/dd0a6938517dedfcd716e60133fa2460.jpg" />
</div>
<div class="text">
<h3>xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会</h3>
</div>
</a>
<a href="/zhyw/611.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-11</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240511/9001b0ad35dded871c5a8953e6a75291.jpg" />
</div>
<div class="text">
<h3>校党委书记xx带队赴yy“访企拓岗”</h3>
</div>
</a>
<a href="/zhyw/607.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-07</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240507/65ad7e59d16aeaddefd6a06081c88968.png" />
</div>
<div class="text">
<h3>影响因子11.1商学院青年教师xx在国际顶级期刊发表论文</h3>
</div>
</a>
<a href="/zhyw/590.html" target="_blank" class="item">
<div class="data">
<h3>2024-05-05</h3>
</div>
<div class="imgbox">
<img src="/uploads/images/20240506/5d3623a5frg2276f49a5e346e0ba66f9.jpg" />
</div>
<div class="text">
<h3>别太羡慕!“新青媒”姐妹“搭子”考研上岸!</h3>
</div>
</a>
</div>
</div>
</div>
</body>
</html>
操作:显示所有新闻的标题和URL。
要求:
(1)获取所有新闻的标题和URL。
(2)每行显示一条新闻的标题和URL,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会 /zhyw/615.html
操作:显示所有新闻的标题和URL。
要求:
(1)获取所有新闻的标题和URL。
(2)每行显示一条新闻的标题和URL,两者之间使用跳转分隔,形如:
xxx学院举办党纪学习教育专题读书班开班式 暨专家辅导报告会 /zhyw/615.html
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index1.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')
# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_urls = soup.find_all('a')
# 遍历新闻标题和url,按顺序配对并打印
for title, url in zip(news_titles, news_urls):
# 获取<h3>标签中的文本作为标题,去除多余空格
title = title.h3.text.strip()
# 获取url
url = url.get('href')
# 打印标题和url,使用\t分隔
print(f'{title}\t{url}')
作业12:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="information-r" aos="fade-left">
<div class="information-rmin">
<a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
<div class="text">
<h3>xxx学院学生课程成绩、学分认定审批表</h3>
<p>2024.04.22</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
<div class="text">
<h3>xxx学院体育免修审批表</h3>
<p>2024.04.12</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
<div class="text">
<h3>xxx学院课程免修申请表</h3>
<p>2023.06.01</p>
</div>
<div class="more">立即下载</div>
</a>
</div>
</div>
</body>
</html>
操作:显示所有下载资源的名称。
要求:
(1)获取所有下载资源的名称。
(2)每行显示一个资源名称,形如:
xxx学院学生课程成绩、学分认定审批表
操作:显示所有下载资源的名称。
要求:
(1)获取所有下载资源的名称。
(2)每行显示一个资源名称,形如:
xxx学院学生课程成绩、学分认定审批表
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有class为'text'的<div>标签,因为标题位于这些标签内
news_titles = soup.find_all('div', class_='text')
# 遍历找到的每个<div>标签,并打印里面的<h3>标签内容(即标题)
for title in news_titles:
title = title.h3.text.strip() # 获取<h3>标签的文本内容并去除前后空白
print(title)
作业13:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="information-r" aos="fade-left">
<div class="information-rmin">
<a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
<div class="text">
<h3>xxx学院学生课程成绩、学分认定审批表</h3>
<p>2024.04.22</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
<div class="text">
<h3>xxx学院体育免修审批表</h3>
<p>2024.04.12</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
<div class="text">
<h3>xxx学院课程免修申请表</h3>
<p>2023.06.01</p>
</div>
<div class="more">立即下载</div>
</a>
</div>
</div>
</body>
</html>
操作:显示所有下载资源的名称、上传时间。
要求:
(1)获取所有下载资源的名称、上传时间。
(2)每行显示一个资源名称、上传时间,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表 2024.04.22
操作:显示所有下载资源的名称、上传时间。
要求:
(1)获取所有下载资源的名称、上传时间。
(2)每行显示一个资源名称、上传时间,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表 2024.04.22
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')
# 遍历标题和日期,按顺序配对并打印
for i in news_titles:
# 获取<h3>标签中的文本作为标题,去除多余空格
title = i.h3.text.strip()
# 获取<h3>标签中的文本作为日期,去除多余空格
date = i.p.text.strip()
# 打印标题和日期,使用\t分隔
print(f'{title}\t{date}')
作业14:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="information-r" aos="fade-left">
<div class="information-rmin">
<a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
<div class="text">
<h3>xxx学院学生课程成绩、学分认定审批表</h3>
<p>2024.04.22</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
<div class="text">
<h3>xxx学院体育免修审批表</h3>
<p>2024.04.12</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
<div class="text">
<h3>xxx学院课程免修申请表</h3>
<p>2023.06.01</p>
</div>
<div class="more">立即下载</div>
</a>
</div>
</div>
</body>
</html>
操作:显示所有下载资源的名称、URL。
要求:
(1)获取所有下载资源的名称、URL。
(2)每行显示一个资源名称、URL,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表 ….doc
操作:显示所有下载资源的名称、URL。
要求:
(1)获取所有下载资源的名称、URL。
(2)每行显示一个资源名称、URL,两者之间使用跳转分隔,形如:
xxx学院学生课程成绩、学分认定审批表 ….doc
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')
# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_urls = soup.find_all('a')
# 遍历标题和url,按顺序配对并打印
for title, url in zip(news_titles, news_urls):
# 获取<h3>标签中的文本作为标题,去除多余空格
title = title.h3.text.strip()
# 获取url
url = url.get('href')
# 打印标题和url,使用\t分隔
print(f'{title}\t{url}')
作业15:
某学院的信息公开模块的信息下载网页显示了所有可供下载的资源,该网页index.html的源代码如下:
<html>
<head>
<title>《数据采集与预处理》操作题</title>
</head>
<body>
<div class="information-r" aos="fade-left">
<div class="information-rmin">
<a href="/uploads/files/20230602/0833b370bea5t3e3c23584ae89a09e99.doc" download class="item">
<div class="text">
<h3>xxx学院学生课程成绩、学分认定审批表</h3>
<p>2024.04.22</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/39121321545d39741fa55c2ac0feca9c.docx" download class="item">
<div class="text">
<h3>xxx学院体育免修审批表</h3>
<p>2024.04.12</p>
</div>
<div class="more">立即下载</div>
</a>
<a href="/uploads/files/20230602/06c5699d3f6847f899b672bd7c9e76c7.doc" download class="item">
<div class="text">
<h3>xxx学院课程免修申请表</h3>
<p>2023.06.01</p>
</div>
<div class="more">立即下载</div>
</a>
</div>
</div>
</body>
</html>
操作:显示所有资源的上传时间、名称和URL。
要求:
(1)获取所有资源的上传时间、名称和URL。
(2)每行显示一个资源的上传时间、名称和URL,两者之间使用跳转分隔,形如:
2024.04.22 xxx学院学生课程成绩、学分认定审批表 ...doc
操作:显示所有资源的上传时间、名称和URL。
要求:
(1)获取所有资源的上传时间、名称和URL。
(2)每行显示一个资源的上传时间、名称和URL,两者之间使用跳转分隔,形如:
2024.04.22 xxx学院学生课程成绩、学分认定审批表 ...doc
import requests
from bs4 import BeautifulSoup
# 读取网页,获得HTML代码
url = "D:/可视化源代码/brl/index2.html"
response = open(url, "r", encoding="utf-8")
html = response.read()
soup = BeautifulSoup(html, "lxml")
# 查找所有class为"text"的div标签,这些标签包含了新闻标题
news_titles = soup.find_all('div', class_='text')
# 查找所有class为"data"的div标签,这些标签包含了新闻发表时间
news_urls = soup.find_all('a')
# 遍历标题和url,按顺序配对并打印
for i, j in zip(news_titles, news_urls):
# 获取<h3>标签中的文本作为标题,去除多余空格
title = i.h3.text.strip()
# 获取日期,去除多余空格
date = i.p.text.strip()
# 获取url
url = j.get('href')
# 打印标题和url,使用\t分隔
print(f'{date}\t{title}\t{url}')