Python爬虫的5个小实例

最新推荐文章于 2024-08-22 17:44:16 发布

Maxwell.py

最新推荐文章于 2024-08-22 17:44:16 发布

阅读量270

收藏 1

点赞数 1

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46312720/article/details/104299389

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

如何获取京东商品页面信息

京东允许爬虫获取可见信息
代码如下
在这里插入图片描述

以iphone11为例子，结果如下
在这里插入图片描述

如何爬取亚马逊商品页面

代码如下，结果如下
在这里插入图片描述

结果失败了，我们继续查看我们发出的request的头部信息。在这里插入图片描述

在user-agent一处，被查出来是requests库的请求，而亚马逊不允许此请求。我们修改头部信息为morilla /5.0的请求，这个morilla /5.0浏览器算是标准的浏览器。

修改之后成功爬取
在这里插入图片描述

如何爬取图片
先获取图片地址，代码如下在这里插入图片描述

content代表二进制，因为图片是以二进制存储的，with open 中的文件如果不存在，它会自动创造一个。结果如下在这里插入图片描述

如何自动搜索关键词
百度查询接口：http://www.baidu.com/s?wd=keyword
360查询接口： http://www.so.com/s?q=keyword
代码如下
在这里插入图片描述
可以看到，通过get，获取到查询接口，返回结果的长度在30k左右

如何获取IP地址的归属

需要拥有Ip库，但是python并不带有ip库，可以通过IP138网站查询。

IP138的查询接口：http://m.ip138.com/if.asp?ip=ipaddress

代码如下
在这里插入图片描述

结果如下，可以看到这个IP属于清华大学官网在这里插入图片描述

Maxwell.py

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值