Python爬虫的5个小实例

  1. 如何获取京东商品页面信息

京东允许爬虫获取可见信息
代码如下
在这里插入图片描述

以iphone11为例子,结果如下
在这里插入图片描述

如何爬取亚马逊商品页面

代码如下,结果如下
在这里插入图片描述

结果失败了,我们继续查看我们发出的request的头部信息。在这里插入图片描述

在user-agent一处,被查出来是requests库的请求,而亚马逊不允许此请求。我们修改头部信息为morilla /5.0的请求,这个morilla /5.0浏览器算是标准的浏览器。

修改之后成功爬取
在这里插入图片描述

如何爬取图片
先获取图片地址,代码如下在这里插入图片描述

content代表二进制,因为图片是以二进制存储的,with open 中的文件如果不存在,它会自动创造一个。结果如下在这里插入图片描述

如何自动搜索关键词
百度查询接口:http://www.baidu.com/s?wd=keyword
360查询接口: http://www.so.com/s?q=keyword
代码如下
在这里插入图片描述
可以看到,通过get,获取到查询接口,返回结果的长度在30k左右

如何获取IP地址的归属

需要拥有Ip库,但是python并不带有ip库,可以通过IP138网站查询。

IP138的查询接口:http://m.ip138.com/if.asp?ip=ipaddress

代码如下
在这里插入图片描述

结果如下,可以看到这个IP属于清华大学官网在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值