爬虫步骤
- 确定需求
- 寻找需求
- 发送请求
- 解析数据
- 存储数据
请求方式:GET和POST
- GET是默认的HTTP请求方式,用于直接输入网址的方式去访问网页
- POST方法主要是像Web服务器提交表单数据,通常扁担提交时采用POST方法
- GET把请求参数包含在url中,POST通过请求体传递参数
- GET相对POST不安全,参数直接暴露在url上,不用来传递敏感信息
requests
安装:pip install requests
import requests
#定义请求的url
url = 'https://www.baidu.com/'
#定义请求头信息
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
#发起Get请求
res = requests.get(url=url,headers=headers)
#获取相应状态码,当响应状态码为200 时则表示请求成功
code = res.status_code
print(code)
#相应成功后把相应的内容加入文件中
if code ==200:
with open ('E:/Learn/PythonLearn/demo02/text.html','w',encoding="utf-8") as fp:
# fp.write(res.text)
# print(res.text).encode('gbk', 'ignore')
# print(res.text)
fp.write(res.text)