网络爬虫小case——以爬取某档案网站通知公告为例

本文介绍了使用Python的requests和beautifulsoup库爬取某档案网站通知公告的过程,包括获取一级目录URL,读取并保存二级链接中的图片。项目从http://www.hada.gov.cn开始,通过Chrome抓包分析网页标签。最后展示了保存的图片结果,并提供了项目源码链接。
摘要由CSDN通过智能技术生成

python网络爬虫第一次实践——以某档案网站为例

该项目使用requests和beautifulsoup对某档案网站的文档进行操作,主要项目思路为:

  1. 读取档案网站的通知公告标签,拿到一级目录url
  2. 以第一个通知链接为例,进入二级链接,对图片进行读取并保存到本地。
/*首先是导入必要的库*/
import requests
import os
from bs4 import BeautifulSoup
url = "http://www.hada.gov.cn/"  //本项目的url链接
bs = requests.get(url)
bs.encoding = 'gb2312'   //网页源代码编码格式
soup = BeautifulSoup(bs.text,'lxml')   //使用beautifulsoup对网页模块进行解析

项目的初始网站为 http://www.hada.gov.cn ,接下来使用chrome抓包工具对网页进行分析,取得"通知公告"一栏的标签。

list1 = []
# 先查找marquee标签,拿到通知公告的全部内容
tds = soup.find('marquee')
uls=tds.find_all('ul')
for u in uls: #遍历得到链接
	for i in u.find_all('a'):
		list1.append(url+i.get('href'))   //将通知公告的链接放入list当中

下面以取得的第一次通知公告url为例,对二级u

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值