Python爬取财政部财政数据链接

最新推荐文章于 2024-07-08 14:59:20 发布

程序媛小本

最新推荐文章于 2024-07-08 14:59:20 发布

阅读量1k

点赞数 23

文章标签： python windows 服务器

本文链接：https://blog.csdn.net/m0_59236127/article/details/136252142

版权

一、观察网页

1.进入网页

首先打开联想浏览器，进入网页地址：http://www.mof.gov.cn/gkml/caizhengshuju/

2.判断是静态网页还是动态网页

鼠标右键单击页面空白处，点击“检查”查看其源代码，复制任意页面信息，如”2023年4月份全国彩票销售情况 “，通过Ctrl+F搜索复制的信息，发现能够找到相同数据，则此网页为静态网页。

二、导入第三方库

引入需要的第三方库，编码如下：

import requests   import pandas as pd   from bs4 import Beautifulsoup

三、请求数据

针对静态网页，我们可以使用Requests库请求数据，过程如下：

1.请求方式

点击“Network”后刷新网页找到所需的第一个链接“caizhengshuju/”，其与本页网址尾端相对应，点击“Headers”可知，王爷的请求方式为“GET”。运行代码，显示Requests[200],即请求成功，则无需伪装请求头。

2.查看编码方式

点击“Response”，可知编码格式为“utf-8”，为防止乱码，我们使用r.encoding=r.apparent_encoding。

3.for循环语句实现翻页

使用for循环语句来请求数据，观察网页翻页规律：

第一页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index.htm

第二页网址： http://www.mof.gov.cn/gkml/caizhengshuju/index_1.htm

第三页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index_2.htm

第二十页网址： http://www.mof.gov.cn/gkml/caizhengshuju/index_19.htm#

综上可以得出，第{i}页网址(i=1除外)：http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm

输入代码为：

items=[]   #定义一个空列表储存信息   #构建for循环语句来请求数据   for i in range(1,21):       if i==1:           url="http://www.mof.gov.cn/gkml/caizhengshuju/index.htm"       else:           url=f"http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm"   #f-string 字符串格式化       r=requests.get(url)       r.encoding=r.apparent_encoding       text=r.text

四、解析数据

利用BeautifulSoup库进行数据解析，点击“Elements”，发现所有财政数据都储存在‘div’标签下”class=mainboxerji”中，每条动态信息都位于‘li’标签里，不同信息的子链接位于‘li’标签下的‘a’标签的‘herf’中，标题位于‘a’标签下的‘title’中，日期在‘span’中。

 `soup=BeautifulSoup(r.text,"html.parser")       li_list=soup.find('div',class_="mainboxerji").find_all('li')         for li in li_list:           title=li.find('a').text           href=li.find('a').get('href')    #获取财政数据链接`

经观察，该网站的子链接存在不同的结构，比如：

母网址为：http://www.mof.gov.cn/gkml/caizhengshuju/index.htm      <a href="http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm" title="2023年5月份全国彩票销售情况" target="_blank">2023年5月份全国彩票销售情况 </a>   子网址为：http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm      <a href="./202303/t20230316_3872867.htm" title="关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告" target="_blank">关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告  </a>   子网址为：http://www.mof.gov.cn/gkml/caizhengshuju/202303/t20230316_3872867.htm      <a href="../../zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm" title="关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告（摘要）" target="_blank">关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告（摘要）  </a>   子网址为：http://www.mof.gov.cn/zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm

在此，我们发现子链接有三种路径

以"http"开头的绝对路径
以"…/"开头的相对路径，需要从基础网址中向上级目录进行合并；
以"./"开头的相对路径，只需要在基础网址的基础上进行合并。

那么，如何构建统一的规则来获取子链接呢？

urljoin函数

urljoin函数是Python标准库中urllib.parse模块中的一个函数，用于将一个基础URL和一个相对路径合并成一个完整的URL。

可以使用urljoin函数来构建完整的URL。urljoin函数能够正确地处理各种情况，包括处理相对路径中的..、./，以及处理基础URL中的协议、域名、路径等部分。它是一个方便且强大的工具，用于构建和处理URL。该函数将基础网址和相对路径作为参数，并返回合并后的绝对路径。

from urllib.parse import urljoin   urljoin(base, url)

用法示例：

from urllib.parse import urljoin   # 基础URL   base_url = "http://www.mof.gov.cn/gkml/caizhengshuju/index.htm"      # child_url1 是一个以"./"开头的相对路径，表示在基础URL的同级目录下的子目录中，合并后得到完整URL   child_url1 = "./202303/t20230316_3872867.htm" #以"./"开头的相对路径，表示在基础URL的同级目录下的子目录中   absolute_url1 = urljoin(base_url, child_url1)   print(absolute_url1)      # child_url2 是一个以"../../"开头的相对路径，表示在基础URL的上级目录的上级目录中的子目录中，合并后得到完整URL   child_url2 = "../../zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm"    absolute_url2 = urljoin(base_url, child_url2)   print(absolute_url2)      # child_url3 是一个绝对路径，它已经包含了完整的URL信息，所以在合并时，urljoin函数会直接返回 child_url3，而不会将其与 base_url 进行合并。因此，输出的结果就是绝对路径本身   child_url3 = "http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm"     absolute_url3 = urljoin(base_url, child_url3)   print(absolute_url3)

结果为：

http://www.mof.gov.cn/gkml/caizhengshuju/202303/t20230316_3872867.htm   http://www.mof.gov.cn/zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm   http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm

因此，我们设计代码如下：

from urllib.parse import urljoin       soup=BeautifulSoup(r.text,"html.parser")       li_list=soup.find('div',class_="mainboxerji").find_all('li')         for li in li_list:           title=li.find('a').text           href=li.find('a').get('href')    #获取财政数据子链接           child_url=urljoin(url,href)           date=li.find('span').text           item=[title,date,child_url]   #将列表内容按照标题、日期、子链接排列           items.append(item)   #将爬取所有item作为一个整体添加到总列表中

五、存储数据

Pandas库保存新闻索引数据：利用Pandas库将所爬取的信息存储下来，最后可以通过excel进行查询，代码如下:

import pandas as pd   df = pd.DataFrame(items,columns=['标题','发布时间','链接'])   #将总列表中的列标题分别命名为标题、日期、链接   df.to_excel('中国财政部财政数据20页.xlsx',encoding='utf_8_sig')   #一定要加上encoding=utf_8_sig，防止出现乱码！

六、全套代码及结果

1.全套代码

`import requests       from bs4 import BeautifulSoup   import pandas as pd    from urllib.parse import urljoin   items=[]   #定义一个空列表储存信息   #构建for循环语句来请求数据   for i in range(1,21):       if i==1:           url="http://www.mof.gov.cn/gkml/caizhengshuju/index.htm"       else:           url=f"http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm"   #f-string 字符串格式化       r=requests.get(url)       r.encoding=r.apparent_encoding       text=r.text   #解析数据       soup=BeautifulSoup(r.text,"html.parser")       li_list=soup.find('div',class_="mainboxerji").find_all('li')         for li in li_list:           title=li.find('a').text           href=li.find('a').get('href')    #获取财政数据子链接           child_url=urljoin(url,href)           date=li.find('span').text           item=[title,date,child_url]   #将列表内容按照标题、日期、子链接排列           items.append(item)   #将爬取所有item作为一个整体添加到总列表中   #存储数据   df = pd.DataFrame(items,columns=['标题','发布时间','链接'])   #将总列表中的列标题分别命名为标题、日期、链接   df.to_excel('中国财政部财政数据20页.xlsx',encoding='utf_8_sig')   #一定要加上encoding=utf_8_sig，防止出现乱码！`