Python爬取财政部财政数据链接

一、观察网页

1.进入网页

首先打开联想浏览器,进入网页地址:http://www.mof.gov.cn/gkml/caizhengshuju/

2.判断是静态网页还是动态网页

鼠标右键单击页面空白处,点击“检查”查看其源代码,复制任意页面信息,如”2023年4月份全国彩票销售情况 “,通过Ctrl+F搜索复制的信息,发现能够找到相同数据,则此网页为静态网页。

二、导入第三方库

引入需要的第三方库,编码如下:

import requests   import pandas as pd   from bs4 import Beautifulsoup   

三、请求数据

针对静态网页,我们可以使用Requests库请求数据,过程如下:

1.请求方式

点击“Network”后刷新网页找到所需的第一个链接“caizhengshuju/”,其与本页网址尾端相对应,点击“Headers”可知,王爷的请求方式为“GET”。运行代码,显示Requests[200],即请求成功,则无需伪装请求头。

2.查看编码方式

点击“Response”,可知编码格式为“utf-8”,为防止乱码,我们使用r.encoding=r.apparent_encoding。

3.for循环语句实现翻页

使用for循环语句来请求数据,观察网页翻页规律:

第一页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index.htm

第二页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index_1.htm

第三页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index_2.htm

第二十页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index_19.htm#

综上可以得出,第{i}页网址(i=1除外):http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm

输入代码为:

items=[]   #定义一个空列表储存信息   #构建for循环语句来请求数据   for i in range(1,21):       if i==1:           url="http://www.mof.gov.cn/gkml/caizhengshuju/index.htm"       else:           url=f"http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm"   #f-string 字符串格式化       r=requests.get(url)       r.encoding=r.apparent_encoding       text=r.text   

四、解析数据

利用BeautifulSoup库进行数据解析,点击“Elements”,发现所有财政数据都储存在‘div’标签下”class=mainboxerji”中,每条动态信息都位于‘li’标签里,不同信息的子链接位于‘li’标签下的‘a’标签的‘herf’中,标题位于‘a’标签下的‘title’中,日期在‘span’中。

 `soup=BeautifulSoup(r.text,"html.parser")       li_list=soup.find('div',class_="mainboxerji").find_all('li')         for li in li_list:           title=li.find('a').text           href=li.find('a').get('href')    #获取财政数据链接`

经观察,该网站的子链接存在不同的结构,比如:

母网址为:http://www.mof.gov.cn/gkml/caizhengshuju/index.htm      <a href="http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm" title="2023年5月份全国彩票销售情况" target="_blank">2023年5月份全国彩票销售情况 </a>   子网址为:http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm      <a href="./202303/t20230316_3872867.htm" title="关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告" target="_blank">关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告  </a>   子网址为:http://www.mof.gov.cn/gkml/caizhengshuju/202303/t20230316_3872867.htm      <a href="../../zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm" title="关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告(摘要)" target="_blank">关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告(摘要)  </a>   子网址为:http://www.mof.gov.cn/zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm   

在此,我们发现子链接有三种路径

  • 以"http"开头的绝对路径

  • 以"…/"开头的相对路径,需要从基础网址中向上级目录进行合并;

  • 以"./"开头的相对路径,只需要在基础网址的基础上进行合并。

那么,如何构建统一的规则来获取子链接呢?

urljoin函数

urljoin函数是Python标准库中urllib.parse模块中的一个函数,用于将一个基础URL和一个相对路径合并成一个完整的URL。

可以使用urljoin函数来构建完整的URL。urljoin函数能够正确地处理各种情况,包括处理相对路径中的.../,以及处理基础URL中的协议、域名、路径等部分。它是一个方便且强大的工具,用于构建和处理URL。该函数将基础网址和相对路径作为参数,并返回合并后的绝对路径。

from urllib.parse import urljoin   urljoin(base, url)   

用法示例:

from urllib.parse import urljoin   # 基础URL   base_url = "http://www.mof.gov.cn/gkml/caizhengshuju/index.htm"      # child_url1 是一个以"./"开头的相对路径,表示在基础URL的同级目录下的子目录中,合并后得到完整URL   child_url1 = "./202303/t20230316_3872867.htm" #以"./"开头的相对路径,表示在基础URL的同级目录下的子目录中   absolute_url1 = urljoin(base_url, child_url1)   print(absolute_url1)      # child_url2 是一个以"../../"开头的相对路径,表示在基础URL的上级目录的上级目录中的子目录中,合并后得到完整URL   child_url2 = "../../zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm"    absolute_url2 = urljoin(base_url, child_url2)   print(absolute_url2)      # child_url3 是一个绝对路径,它已经包含了完整的URL信息,所以在合并时,urljoin函数会直接返回 child_url3,而不会将其与 base_url 进行合并。因此,输出的结果就是绝对路径本身   child_url3 = "http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm"     absolute_url3 = urljoin(base_url, child_url3)   print(absolute_url3)   

结果为:

http://www.mof.gov.cn/gkml/caizhengshuju/202303/t20230316_3872867.htm   http://www.mof.gov.cn/zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm   http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm   

因此,我们设计代码如下:

from urllib.parse import urljoin       soup=BeautifulSoup(r.text,"html.parser")       li_list=soup.find('div',class_="mainboxerji").find_all('li')         for li in li_list:           title=li.find('a').text           href=li.find('a').get('href')    #获取财政数据子链接           child_url=urljoin(url,href)           date=li.find('span').text           item=[title,date,child_url]   #将列表内容按照标题、日期、子链接排列           items.append(item)   #将爬取所有item作为一个整体添加到总列表中   

五、存储数据

Pandas库保存新闻索引数据:利用Pandas库将所爬取的信息存储下来,最后可以通过excel进行查询,代码如下:

import pandas as pd   df = pd.DataFrame(items,columns=['标题','发布时间','链接'])   #将总列表中的列标题分别命名为标题、日期、链接   df.to_excel('中国财政部财政数据20页.xlsx',encoding='utf_8_sig')   #一定要加上encoding=utf_8_sig,防止出现乱码!   

六、全套代码及结果

1.全套代码

`import requests       from bs4 import BeautifulSoup   import pandas as pd    from urllib.parse import urljoin   items=[]   #定义一个空列表储存信息   #构建for循环语句来请求数据   for i in range(1,21):       if i==1:           url="http://www.mof.gov.cn/gkml/caizhengshuju/index.htm"       else:           url=f"http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm"   #f-string 字符串格式化       r=requests.get(url)       r.encoding=r.apparent_encoding       text=r.text   #解析数据       soup=BeautifulSoup(r.text,"html.parser")       li_list=soup.find('div',class_="mainboxerji").find_all('li')         for li in li_list:           title=li.find('a').text           href=li.find('a').get('href')    #获取财政数据子链接           child_url=urljoin(url,href)           date=li.find('span').text           item=[title,date,child_url]   #将列表内容按照标题、日期、子链接排列           items.append(item)   #将爬取所有item作为一个整体添加到总列表中   #存储数据   df = pd.DataFrame(items,columns=['标题','发布时间','链接'])   #将总列表中的列标题分别命名为标题、日期、链接   df.to_excel('中国财政部财政数据20页.xlsx',encoding='utf_8_sig')   #一定要加上encoding=utf_8_sig,防止出现乱码!`     

2.运行结果

查看Spyder变量浏览器中的df:

查看保存的索引excel:

以上就是“Python爬取财政部财政数据链接”的全部内容,希望对你有所帮助。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

img

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

五、Python练习题

检查学习结果。

img

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

img

最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

  • 23
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值