python 网络页面爬取

最新推荐文章于 2025-06-24 09:08:45 发布

原创最新推荐文章于 2025-06-24 09:08:45 发布 · 290 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

python 专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了使用Python的requests库对国家体育总局网站进行网络爬取，包括设置User-Agent，获取网页内容并保存为HTML文件的过程。通过实际操作演示了如何检查和模拟浏览器头部信息以确保爬取成功。

4.22 python 网络页面爬取

对国家体育总局（例）页面进行简单爬取
运行结果截图：
在这里插入图片描述

代码：

import requests
url="http://www.sport.gov.cn/n316/n336/c947645/content.html"
try:
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36 Edg/90.0.818.42'}
    r = requests.get(url,headers=headers)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    html=r.text
    print(html) #可省略
    fo=open("output1.html","w+",encoding="utf-8")
    fo.write(html)
    fo.close()
except:    
    print("爬取失败！")

以写入的形式open一个文件

然后把爬取的页面html写入进去

！！！备注：
查看浏览器的访问头部信息: 打开浏览器，访问要爬取的网站，在空白处点右键，点击检查（有的浏览器叫审查元素），找到网络（network），刷新页面（浏览器的刷新按钮)，然后网络里会出来一串东西，找到第一个，左键点击，切换到标头（headers），拉到请请求标头，最下面就是user-agent。