Python爬虫—requests模块爬取网页-1

本文介绍了Pythonrequests模块的概念、作用,包括其在网络请求中的模拟浏览器功能。详细讲述了安装过程以及如何通过requests模块爬取搜狗和百度首页的页面数据,并演示了数据的持久化保存。后续将涉及数据处理内容。
摘要由CSDN通过智能技术生成

requests模块

        1.概念:

                requests模块是python中原生的一款基于网络请求的模块,功能非常的强大,功能非常强大,简单便捷,效率极高。

        2.作用:

                模拟浏览器发送请求。

        3.如何使用(requests模块的编码流程步骤):

                -(1)指定一个网址 url

                -(2)发送请求 get  or  post

                -(3)获取响应数据 response

                -(4)持久化存储 一般写入保存

        4.环境安装

                在pycharm 的终端 进行安装 代码如下:

pip install requests

                或者在pycharm的设置里找到python解释器,在这里进行安装,点击加号,然后搜索requests进行安装。

        5.实战编码

                -需求:爬取搜狗首页的页面数据。

                代码如下:

import requests

#指定 url
url = 'https://www.sogou.com/'

#发起请求 这里使用 get 请求  get 请求会返回一个响应对象
#获取响应数据
response = requests.get(url=url)

#获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)

#持久化保存数据
with open('./sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

print("爬取数据结束!")

                爬取后,目录里会出现一个html文件。

点击进去,在右上角会有一个html文件的打开方式。该文件和代码读取打印的运行结果是一致的。

你也可以使用这个方法去爬取百度的网页源码进行尝试!!!后续我们会讲解如何对爬取的数据进行处理等操作。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值