网络爬虫小case——以爬取某档案网站通知公告为例

最新推荐文章于 2024-04-24 21:19:10 发布

m__x__p__696

最新推荐文章于 2024-04-24 21:19:10 发布

阅读量655

点赞数 1

分类专栏： python 文章标签： python 爬虫某档案网站

本文链接：https://blog.csdn.net/m__x__p__696/article/details/89328037

版权

本文介绍了使用Python的requests和beautifulsoup库爬取某档案网站通知公告的过程，包括获取一级目录URL，读取并保存二级链接中的图片。项目从http://www.hada.gov.cn开始，通过Chrome抓包分析网页标签。最后展示了保存的图片结果，并提供了项目源码链接。

摘要由CSDN通过智能技术生成

python网络爬虫第一次实践——以某档案网站为例

该项目使用requests和beautifulsoup对某档案网站的文档进行操作，主要项目思路为：

读取档案网站的通知公告标签，拿到一级目录url
以第一个通知链接为例，进入二级链接，对图片进行读取并保存到本地。

/*首先是导入必要的库*/
import requests
import os
from bs4 import BeautifulSoup
url = "http://www.hada.gov.cn/"  //本项目的url链接
bs = requests.get(url)
bs.encoding = 'gb2312'   //网页源代码编码格式
soup = BeautifulSoup(bs.text,'lxml')   //使用beautifulsoup对网页模块进行解析

项目的初始网站为 http://www.hada.gov.cn ，接下来使用chrome抓包工具对网页进行分析，取得"通知公告"一栏的标签。

list1 = []
# 先查找marquee标签，拿到通知公告的全部内容
tds = soup.find('marquee')
uls=tds.find_all('ul')
for u in uls: #遍历得到链接
	for i in u.find_all('a'):
		list1.append(url+i.get('href'))   //将通知公告的链接放入list当中

下面以取得的第一次通知公告url为例，对二级u