一、观察网页
1.进入网页
首先打开联想浏览器,进入网页地址:http://www.mof.gov.cn/gkml/caizhengshuju/
2.判断是静态网页还是动态网页
鼠标右键单击页面空白处,点击“检查”查看其源代码,复制任意页面信息,如”2023年4月份全国彩票销售情况 “,通过Ctrl+F搜索复制的信息,发现能够找到相同数据,则此网页为静态网页。
二、导入第三方库
引入需要的第三方库,编码如下:
import requests import pandas as pd from bs4 import Beautifulsoup
三、请求数据
针对静态网页,我们可以使用Requests库请求数据,过程如下:
1.请求方式
点击“Network”后刷新网页找到所需的第一个链接“caizhengshuju/”,其与本页网址尾端相对应,点击“Headers”可知,王爷的请求方式为“GET”。运行代码,显示Requests[200],即请求成功,则无需伪装请求头。
2.查看编码方式
点击“Response”,可知编码格式为“utf-8”,为防止乱码,我们使用r.encoding=r.apparent_encoding。
3.for循环语句实现翻页
使用for循环语句来请求数据,观察网页翻页规律:
第一页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index.htm
第二页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index_1.htm
第三页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index_2.htm
第二十页网址: http://www.mof.gov.cn/gkml/caizhengshuju/index_19.htm#
综上可以得出,第{i}页网址(i=1除外):http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm
输入代码为:
items=[] #定义一个空列表储存信息 #构建for循环语句来请求数据 for i in range(1,21): if i==1: url="http://www.mof.gov.cn/gkml/caizhengshuju/index.htm" else: url=f"http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm" #f-string 字符串格式化 r=requests.get(url) r.encoding=r.apparent_encoding text=r.text
四、解析数据
利用BeautifulSoup库进行数据解析,点击“Elements”,发现所有财政数据都储存在‘div’标签下”class=mainboxerji”中,每条动态信息都位于‘li’标签里,不同信息的子链接位于‘li’标签下的‘a’标签的‘herf’中,标题位于‘a’标签下的‘title’中,日期在‘span’中。
`soup=BeautifulSoup(r.text,"html.parser") li_list=soup.find('div',class_="mainboxerji").find_all('li') for li in li_list: title=li.find('a').text href=li.find('a').get('href') #获取财政数据链接`
经观察,该网站的子链接存在不同的结构,比如:
母网址为:http://www.mof.gov.cn/gkml/caizhengshuju/index.htm <a href="http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm" title="2023年5月份全国彩票销售情况" target="_blank">2023年5月份全国彩票销售情况 </a> 子网址为:http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm <a href="./202303/t20230316_3872867.htm" title="关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告" target="_blank">关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告 </a> 子网址为:http://www.mof.gov.cn/gkml/caizhengshuju/202303/t20230316_3872867.htm <a href="../../zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm" title="关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告(摘要)" target="_blank">关于2022年中央和地方预算执行情况与2023年中央和地方预算草案的报告(摘要) </a> 子网址为:http://www.mof.gov.cn/zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm
在此,我们发现子链接有三种路径
-
以"http"开头的绝对路径
-
以"…/"开头的相对路径,需要从基础网址中向上级目录进行合并;
-
以"./"开头的相对路径,只需要在基础网址的基础上进行合并。
那么,如何构建统一的规则来获取子链接呢?
urljoin函数
urljoin
函数是Python标准库中urllib.parse
模块中的一个函数,用于将一个基础URL和一个相对路径合并成一个完整的URL。
可以使用urljoin
函数来构建完整的URL。urljoin
函数能够正确地处理各种情况,包括处理相对路径中的..
、./
,以及处理基础URL中的协议、域名、路径等部分。它是一个方便且强大的工具,用于构建和处理URL。该函数将基础网址和相对路径作为参数,并返回合并后的绝对路径。
from urllib.parse import urljoin urljoin(base, url)
用法示例:
from urllib.parse import urljoin # 基础URL base_url = "http://www.mof.gov.cn/gkml/caizhengshuju/index.htm" # child_url1 是一个以"./"开头的相对路径,表示在基础URL的同级目录下的子目录中,合并后得到完整URL child_url1 = "./202303/t20230316_3872867.htm" #以"./"开头的相对路径,表示在基础URL的同级目录下的子目录中 absolute_url1 = urljoin(base_url, child_url1) print(absolute_url1) # child_url2 是一个以"../../"开头的相对路径,表示在基础URL的上级目录的上级目录中的子目录中,合并后得到完整URL child_url2 = "../../zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm" absolute_url2 = urljoin(base_url, child_url2) print(absolute_url2) # child_url3 是一个绝对路径,它已经包含了完整的URL信息,所以在合并时,urljoin函数会直接返回 child_url3,而不会将其与 base_url 进行合并。因此,输出的结果就是绝对路径本身 child_url3 = "http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm" absolute_url3 = urljoin(base_url, child_url3) print(absolute_url3)
结果为:
http://www.mof.gov.cn/gkml/caizhengshuju/202303/t20230316_3872867.htm http://www.mof.gov.cn/zhengwuxinxi/caizhengxinwen/202303/t20230306_3870852.htm http://zhs.mof.gov.cn/zonghexinxi/202306/t20230630_3893685.htm
因此,我们设计代码如下:
from urllib.parse import urljoin soup=BeautifulSoup(r.text,"html.parser") li_list=soup.find('div',class_="mainboxerji").find_all('li') for li in li_list: title=li.find('a').text href=li.find('a').get('href') #获取财政数据子链接 child_url=urljoin(url,href) date=li.find('span').text item=[title,date,child_url] #将列表内容按照标题、日期、子链接排列 items.append(item) #将爬取所有item作为一个整体添加到总列表中
五、存储数据
Pandas库保存新闻索引数据:利用Pandas库将所爬取的信息存储下来,最后可以通过excel进行查询,代码如下:
import pandas as pd df = pd.DataFrame(items,columns=['标题','发布时间','链接']) #将总列表中的列标题分别命名为标题、日期、链接 df.to_excel('中国财政部财政数据20页.xlsx',encoding='utf_8_sig') #一定要加上encoding=utf_8_sig,防止出现乱码!
六、全套代码及结果
1.全套代码
`import requests from bs4 import BeautifulSoup import pandas as pd from urllib.parse import urljoin items=[] #定义一个空列表储存信息 #构建for循环语句来请求数据 for i in range(1,21): if i==1: url="http://www.mof.gov.cn/gkml/caizhengshuju/index.htm" else: url=f"http://www.mof.gov.cn/gkml/caizhengshuju/index_{i-1}.htm" #f-string 字符串格式化 r=requests.get(url) r.encoding=r.apparent_encoding text=r.text #解析数据 soup=BeautifulSoup(r.text,"html.parser") li_list=soup.find('div',class_="mainboxerji").find_all('li') for li in li_list: title=li.find('a').text href=li.find('a').get('href') #获取财政数据子链接 child_url=urljoin(url,href) date=li.find('span').text item=[title,date,child_url] #将列表内容按照标题、日期、子链接排列 items.append(item) #将爬取所有item作为一个整体添加到总列表中 #存储数据 df = pd.DataFrame(items,columns=['标题','发布时间','链接']) #将总列表中的列标题分别命名为标题、日期、链接 df.to_excel('中国财政部财政数据20页.xlsx',encoding='utf_8_sig') #一定要加上encoding=utf_8_sig,防止出现乱码!`
2.运行结果
查看Spyder变量浏览器中的df:
查看保存的索引excel:
以上就是“Python爬取财政部财政数据链接”的全部内容,希望对你有所帮助。
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、Python练习题
检查学习结果。
六、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。