python网络爬虫-基础篇

1.get请求:

请求京东(为例)主页的内容,并打印出它的HTML源代码。

import requests
response = requests.get(url='https://www.jd.com')
print(response.text)

2.post请求:

GET请求用于请求数据,而POST请求用于提交数据。 

import requests
data = {"name":"测试"}
#post请求获取页面数据
response = requests.post("https://httpbin.org/post",data=data)
print(response.text)

3.get带参数请求

import requests

data = {"key1":"value1","key2":"value2"}

response = requests.get('https://httpbin.org/get',params=data)

print(response.url)
print(response.headers)
print(response.text)

4.获取响应数据

1.把网站的图片保存在本地

使用reques模块可以获得整个页面数据

如果希望获得页面中的某一种数据可以获取网站中的数据地址,例如

https://game.gtimg.cn/images/yxzj/cp/a20170829bbgxsm/lb_s36.jpg

import requests
response = requests.get('https://game.gtimg.cn/images/yxzj/cp/a20170829bbgxsm/lb_s36.jpg')
with open('tupian.jpg','wb') as f:
    f.write(response.content)

2.获得JSON

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式

response = requests.get("http://httpbin.org/ip")
data = response.json()
print(data)
print(data['origin'])

#获取状态码
print(response.status_code)

 5.自定义请求头信息

import requests
header = {
    'user-agent':'haha/v1'
}
response = requests.get('http://httpbin.org/get',headers=header)
print(response.headers)#获得请求头信息
print(response.request.headers)#获得响应头信息

6.查看服务端的cookie设置

cookie是一种存储在用户浏览器中的小型数据片段,

它允许服务器识别用户的浏览器,并存储关于用户的一些信息。

import requests
#访问目标
url = "https://www.baidu.com"
#请求头信息
header={
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0"
}
response = requests.get(url=url,headers=header)
print(response.cookies)
print(response.cookies['BAIDUID'])

也可自定义设置cookie,发起请求时,携带cookie数据访问服务端

url = 'http://httpbin.org/cookies'
cookies = dict(cookie_arg='hello world')
response = requests.get(url=url,cookies=cookies)
print(response.text)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值