爬取网页的通用代码框架

爬取网页的通用代码框架

img

爬取网页:小规模,数据量小 用Request库 (占比大)

爬取网站: 中规模,速度要快,用Scrapy库

爬取全网:比如搜索引擎,大规模,定制开发

服务器对其的限制:1.来源审查 —判断User-Agent进行限制 2.发布公告— Robots 协议

查看如京东的Robots.txt协议:

img

爬取应该遵守ROBOTS协议。 人类行为可以不参考此协议。

img

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z62y1C1M-1621072242792)(C:\Users\HP\AppData\Local\YNote\data\weixinobU7Vjq8xBbL0vBpggCmDM72xZ7A\a22fa1ec7c504faab649c88c0a7e4a34\bf03a9e7c9684e66b97ba3efa16f9176.jpg)]

亚马逊不支持这样的访问,404 访问错误 。那怎么样

程序模拟浏览器去访问亚马逊。

------重新定义user-Agent

kv={ ’ user-agent ‘:’ Mozilla/5.0 '} 5.0是一个浏览器的标识

代码如下:

img

=====

百度360 搜搜索关键词提交

关键词接口: http://www.baidu.com/?wd=keyword

全代码:

img

网络爬虫的爬取与存储

格式:http://www.example.com/picture.jpg

掌握:get请求捕获 二进制转化为文件

​ 把图片转化为文件,图片是二进制格式,

img

全代码:

img

Ip地址查询: ip138.com 可以查询IP地址

​ 解析出来的接口用URL表示

​ request方法提交ip地址

​ 返回了以后500个字节

img

IP地址查询全代码

img

只要知道向后台提交的链接形式是什么,就可以用py模拟去向服务器提交。 —挖掘后台的API即可

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值