python爬虫入门之简单爬取百度页面

最新推荐文章于 2025-03-08 11:02:48 发布

exusiaiZ

最新推荐文章于 2025-03-08 11:02:48 发布

阅读量7.4k

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/exusiaiZ/article/details/114990802

版权

初学人，尝试爬取百度引擎。

打开百度
在这里插入图片描述
谷歌浏览器下点击右键打开检查工具

点击第三行的ALL
可以看到右边的状态栏发生了变化，向上划，找到第一个文件，点击查看。

查看之后可以看到我们想要的数据。
所需的url以及request method方式为get方式。在这里插入图片描述
以及得知content-type为text：

翻到最底，获知user-agent（这个可以逮住一个使劲薅）
在这里插入图片描述
需要的数据差不多都齐了，接下来开始怼代码：
首先导入requests包。

import  requests

第一步
指定好URL：

if __name__ == '__main__':
    #step1:指定url
    url = 'https://www.baidu.com/'

第二步
发起请求

#step2:发起请求
response =  requests.get(url=url)

第三步
获取到相应数据

#step3:获取相应数据,text返回的是以字符串形式地响应数据
wenben = response.text
print(wenben)

第四步
持久化存储

#step4:持久化存储
with open('./baidu.html','w',encoding='utf-8') as fp:
    fp.write(wenben)
print("爬取结束")

源代码：

import  requests
if __name__ == '__main__':
    #step1:指定url
    url = 'https://www.baidu.com/'
    #step2:发起请求
    response =  requests.get(url=url)
    #step3:获取相应数据,text返回的是以字符串形式地响应数据
    wenben = response.text
    print(wenben)
    #step4:持久化存储
    with open('./baidu.html','w',encoding='utf-8') as fp:
        fp.write(wenben)
    print("爬取结束")

本地运行代码，会发现同目录下出现一个名为baidu.html的文件。
点开运行。
在这里插入图片描述
勉强算是成功了吧。。。