python爬虫入门之简单爬取百度页面

初学人,尝试爬取百度引擎。

打开百度
在这里插入图片描述
谷歌浏览器下点击右键打开检查工具
在这里插入图片描述
点击第三行的ALL在这里插入图片描述
可以看到右边的状态栏发生了变化,向上划,找到第一个文件,点击查看。
在这里插入图片描述
查看之后可以看到我们想要的数据。
所需的url以及request method方式为get方式。在这里插入图片描述
以及得知content-type为text:
在这里插入图片描述

翻到最底,获知user-agent(这个可以逮住一个使劲薅)
在这里插入图片描述
需要的数据差不多都齐了,接下来开始怼代码:
首先导入requests包。

import  requests

第一步
指定好URL:

if __name__ == '__main__':
    #step1:指定url
    url = 'https://www.baidu.com/'

第二步
发起请求

#step2:发起请求
response =  requests.get(url=url)

第三步
获取到相应数据

#step3:获取相应数据,text返回的是以字符串形式地响应数据
wenben = response.text
print(wenben)

第四步
持久化存储

#step4:持久化存储
with open('./baidu.html','w',encoding='utf-8') as fp:
    fp.write(wenben)
print("爬取结束")

源代码:

import  requests
if __name__ == '__main__':
    #step1:指定url
    url = 'https://www.baidu.com/'
    #step2:发起请求
    response =  requests.get(url=url)
    #step3:获取相应数据,text返回的是以字符串形式地响应数据
    wenben = response.text
    print(wenben)
    #step4:持久化存储
    with open('./baidu.html','w',encoding='utf-8') as fp:
        fp.write(wenben)
    print("爬取结束")

本地运行代码,会发现同目录下出现一个名为baidu.html的文件。
点开运行。
在这里插入图片描述
勉强算是成功了吧。。。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值