爬虫原理

最新推荐文章于 2018-11-01 19:56:54 发布

sunlizhao31

最新推荐文章于 2018-11-01 19:56:54 发布

阅读量157

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunlizhao31/article/details/83388836

版权

本文详细介绍了网络爬虫的工作原理，包括模拟浏览器发送HTTP请求、接收响应内容、解析数据以及保存数据的过程。着重讲解了请求的GET和POST方法、URL结构、请求头和响应状态，还提到了爬虫可以获取的各类数据格式以及解析数据的方法。

摘要由CSDN通过智能技术生成

世界上80%的爬虫是基于python开发的,学好爬虫技能,对后续的大数据分析,挖掘,机器学习提供重要的数据源

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本

爬虫的本质是什么

　　模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器发送消息给网址所在的服务器,这个过程叫做http Request(请求)

服务器收到浏览器发送的消息后,根据发送的内容,作出相应的处理,然后把消息传给浏览器,这个过程叫做http Response(响应)

爬虫的基本流程

发起请求

通过http库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应

获取响应内容

如果服务器能正常相应,会得到一个Response,其中的内容便是所要获取的页面内容,类型可能是html,json字符串,二进制数据(图片或者视频)等类型

解析内容

　得到的内容可能是html,可以用正则,页面解析库进行解析

　　可能是json,可以直接转换为json对象解析

　　可能是二进制数据,可以做保存或者进一步处理

保存数据

保存形式多种多样,可以存为文本,可以保存为数据库,或者特定格式的文件

request包含

请求方式

主要有:get和post两种常用类型,两者的区别是get请求的数据放在url中,post则是放在头部

get:向指定的资源发出"显示请求".使用get方法操作应该只用在读取数据,

post:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件).数据被包含在请求文本中,这个请求可能会

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。