python爬虫之requests库(二)

结合python爬虫之requests库(一)部分,我们继续,接下来将首先介绍requests的post方法。我们还是来访问http://httpbin.org/post

import requests

data = {"key1":"value1","key2":"value2"}
url = "http://httpbin.org/post"
re = requests.post(url,data=data)
print(re.text)

执行结果如下所示
在这里插入图片描述

cookies

作为强大的网络爬虫库,怎么能少的了cookie呢,如果大家对cookie内容还是不怎么了解,可以看我之前博客内容。这里,我们继续爬取拉勾网的python的职位信息。


url = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="
data_url ="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"

headers1 = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
}

headers2 = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36",
    "Referer":url
}

data = {
    "first": "true",
    "pn": "1",
    "kd": "python"
}
re = requests.Session()
#获取cookies
r = re.get(url,headers = headers1)
print(r.text)
#通过上面获取的cookie继续发送消息
r = re.post(data_url,headers = headers2,data = data)
with open("index.html","w",encoding="utf-8") as f:
   count =  f.write(r.content.decode("utf-8"))
   print(count)

打开写入的文件,查看写入的内容
在这里插入图片描述

代理

通过requests通过代理来实现对其他服务器的访问,代理IP从西刺免费代理IP获得

url = 'http://www.httpbin.org/ip'

print(requests.get(url).text)

proxies = {
    'http': 'http://117.88.176.135:3000'
}

r = requests.get(url,proxies =proxies)
print(r.text)

执行的结果如下图所示,结果上面是本地ip地址信息,下面一个是使用代理的ip地址对服务器的访问,
在这里插入图片描述

小结
到这里,requests库的主要内容就介绍完毕,在requests库中,我们需要学会使用get post session 以及代理,希望大家把上面的代码在自己理解的基础上写一遍

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值