python基础--request的五个应用

python爬虫常用框架:
try:
r=ruquest.get(url,timeout=30)
r.raise_for_status()#如果不是200返回值,则报错
r.encoding=r.apparent_encoding
return r.text
else:
return "异常"
robots协议:网络排除协议标准(网站告知爬虫者的协议)网址/robots.txt

useragent:哪些爬虫  disallow:不许访问

robots协议的使用:

能够自动识别协议,再进行爬虫,只是协议,建议,有法律风险;

爬取京东商品:


r.status_code=返回状态码 200

出错时:
1.r.request.headers--查看我们发给浏览器的头部信息是否正确,出错需要更改信息

kv={'user-agent':'Mozilla/5.0'}
url="https://www.amazon.cn/gp/product/B01M8l5Z3Y"
r=requests.get(url,headers=kv)
r.status_code---查看状态码是否为200

2.搜索关键词/关键词提交接口

先查看网址哪一段代表关键词:

百度的关键词接口:/s?wd=keyword

360的关键词接口:/s?q=keyword

假设我们要提取关键词python,就可以构造相关的url的键值对,然后提取相应的内容

r.request.url:查看我们发给浏览器的url是什么样的

len(r.text):查看长度


爬取图片:




1.导入requestss库---选择一个路径来存储图片--载入图片的url地址---获取url--查看状态码---如何把图片的二进制格式保存为文件?requests中r.content直接保存二进制格式;

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/20170211061910157.jpg"
root="D://work//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb')as f:
   f.write(r.content)
   f.close()
   print("保存成功")
 else:
  print("文件存在")
except:
 print("失败")

2.IP地址归属查询www.ip138.com(通过此网站提交ip地址找到ip归属地)




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值