爬取网页的通用代码框架

最新推荐文章于 2022-05-23 15:02:04 发布

是个小轮胎

最新推荐文章于 2022-05-23 15:02:04 发布

阅读量192

点赞数

分类专栏：爬虫基础文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qqmrchen124/article/details/116857508

版权

爬虫基础专栏收录该内容

6 篇文章 0 订阅

订阅专栏

爬取网页的通用代码框架

爬取网页：小规模，数据量小用Request库（占比大）

爬取网站: 中规模，速度要快，用Scrapy库

爬取全网：比如搜索引擎，大规模，定制开发

服务器对其的限制：1.来源审查 —判断User-Agent进行限制 2.发布公告— Robots 协议

查看如京东的Robots.txt协议：

爬取应该遵守ROBOTS协议。人类行为可以不参考此协议。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z62y1C1M-1621072242792)(C:\Users\HP\AppData\Local\YNote\data\weixinobU7Vjq8xBbL0vBpggCmDM72xZ7A\a22fa1ec7c504faab649c88c0a7e4a34\bf03a9e7c9684e66b97ba3efa16f9176.jpg)]

亚马逊不支持这样的访问，404 访问错误。那怎么样

程序模拟浏览器去访问亚马逊。

------重新定义user-Agent

kv={ ’ user-agent ‘:’ Mozilla/5.0 '} 5.0是一个浏览器的标识

代码如下：

=====

百度360 搜搜索关键词提交

关键词接口： http://www.baidu.com/?wd=keyword

全代码：

网络爬虫的爬取与存储

格式：http://www.example.com/picture.jpg

掌握：get请求捕获二进制转化为文件

把图片转化为文件，图片是二进制格式，

全代码：

Ip地址查询： ip138.com 可以查询IP地址

解析出来的接口用URL表示

request方法提交ip地址

返回了以后500个字节

IP地址查询全代码

只要知道向后台提交的链接形式是什么，就可以用py模拟去向服务器提交。 —挖掘后台的API即可

是个小轮胎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取网页的通用代码框架

爬取网页的通用代码框架爬取网页：小规模，数据量小用Request库（占比大）爬取网站: 中规模，速度要快，用Scrapy库爬取全网：比如搜索引擎，大规模，定制开发服务器对其的限制：1.来源审查 —判断User-Agent进行限制 2.发布公告— Robots 协议查看如京东的Robots.txt协议：爬取应该遵守ROBOTS协议。人类行为可以不参考此协议。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z62y1C1M-1621072242
复制链接

扫一扫

专栏目录

是个小轮胎 CSDN认证博客专家 CSDN认证企业博客

码龄6年

83: 原创

7万+: 周排名

8万+: 总排名

4万+: 访问

: 等级

1258: 积分

345: 粉丝

429: 获赞

3: 评论

486: 收藏

私信

关注

热门文章

分类专栏

最新评论

互斥量介绍
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
芯片到底是怎么访问外设
Mr.Cssust: 一篇非常好的博客，讲得很清晰，让我对芯片和外设有了更深入的理解。感谢你的知识和经验分享！同时也希望可以来我博客指导我一番！
allegro两层PCB设计流程
延迟满足-: 好强
FPGA DMA基础知识
Fighting_FPGA: 请问CPU输出的指令一般包含什么信息呢？起始地址、空间大小吗，还需要发送读写请求吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。