爬取网页的通用代码框架
爬取网页:小规模,数据量小 用Request库 (占比大)
爬取网站: 中规模,速度要快,用Scrapy库
爬取全网:比如搜索引擎,大规模,定制开发
服务器对其的限制:1.来源审查 —判断User-Agent进行限制 2.发布公告— Robots 协议
查看如京东的Robots.txt协议:
爬取应该遵守ROBOTS协议。 人类行为可以不参考此协议。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z62y1C1M-1621072242792)(C:\Users\HP\AppData\Local\YNote\data\weixinobU7Vjq8xBbL0vBpggCmDM72xZ7A\a22fa1ec7c504faab649c88c0a7e4a34\bf03a9e7c9684e66b97ba3efa16f9176.jpg)]
亚马逊不支持这样的访问,404 访问错误 。那怎么样
程序模拟浏览器去访问亚马逊。
------重新定义user-Agent
kv={ ’ user-agent ‘:’ Mozilla/5.0 '} 5.0是一个浏览器的标识
代码如下:
=====
百度360 搜搜索关键词提交
关键词接口: http://www.baidu.com/?wd=keyword
全代码:
网络爬虫的爬取与存储
格式:http://www.example.com/picture.jpg
掌握:get请求捕获 二进制转化为文件
把图片转化为文件,图片是二进制格式,
全代码:
Ip地址查询: ip138.com 可以查询IP地址
解析出来的接口用URL表示
request方法提交ip地址
返回了以后500个字节
IP地址查询全代码
只要知道向后台提交的链接形式是什么,就可以用py模拟去向服务器提交。 —挖掘后台的API即可