涉及到网络请求的两个模块:
——urllib模块(古老不说)
——request模块
request模块:python中原生的一款基于网络请求的模块
〔特点:功能强大,简单便捷,效率极高〕 ——作用:模拟浏览器发请求
request模块的编码流程:(模拟浏览器)
——指定url(与浏览器操作对应步骤,下同:向浏览器输入网址)
——发起请求(按回车键发起请求)
——获取响应的页面数据(出现页面)
——持久化存储
环境安装:
—— pip install requests
实战编码:(pycharm下实现)
—需求:爬取搜狗首页页面数据
代码:
import requests
#step 1:指定url
url='https://www.sogou.com/'
#step 2:发起请求
#get方法会返回一个响应对象
response=requests.get(url=url)
#step 3:获取响应数据.text返回的是字符串形式的响应数据
page_text=response.text(字符串,即为页面对应的源码数据)
print (page_text)
#step4:持久化存储
with open ('./sogou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束')