python网络爬虫第一次实践——以某档案网站为例
该项目使用requests和beautifulsoup对某档案网站的文档进行操作,主要项目思路为:
- 读取档案网站的通知公告标签,拿到一级目录url
- 以第一个通知链接为例,进入二级链接,对图片进行读取并保存到本地。
/*首先是导入必要的库*/
import requests
import os
from bs4 import BeautifulSoup
url = "http://www.hada.gov.cn/" //本项目的url链接
bs = requests.get(url)
bs.encoding = 'gb2312' //网页源代码编码格式
soup = BeautifulSoup(bs.text,'lxml') //使用beautifulsoup对网页模块进行解析
项目的初始网站为 http://www.hada.gov.cn ,接下来使用chrome抓包工具对网页进行分析,取得"通知公告"一栏的标签。
list1 = []
# 先查找marquee标签,拿到通知公告的全部内容
tds = soup.find('marquee')
uls=tds.find_all('ul')
for u in uls: #遍历得到链接
for i in u.find_all('a'):
list1.append(url+i.get('href')) //将通知公告的链接放入list当中
下面以取得的第一次通知公告url为例,对二级u