python的编程工具spider_python-01 spider原理

最新推荐文章于 2024-04-21 09:32:58 发布

weixin_39597399

最新推荐文章于 2024-04-21 09:32:58 发布

阅读量2.4k

点赞数

文章标签： python的编程工具spider

用Python可以做什么？可以做日常任务，比如自动备份你的MP3；可以做网站，很多著名的网站包括YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台都是Python开发的。总之就是能干很多很多事啦。

Python当然也有不能干的事情，比如写操作系统，这个只能用C语言写；写手机应用，只能用Swift/Objective-C(针对iPhone)和Java(针对Android)；写3D游戏，最好用C或C++。

如果你是小白用户，满足以下条件：

会使用电脑，但从来没写过程序；

还记得初中数学学的方程式和一点点代数知识；

想从编程小白变成专业的软件架构师；

每天能抽出半个小时学习

一、爬虫是什么？

简单来说互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前；

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

沿着网络抓取自己的猎物(数据)爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地，进而提取自己需要的数据，存放起来使用；

二、爬虫的基本流程：

用户获取网络数据的方式：

方式1：浏览器提交请求--->下载网页代码--->解析成页面

方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

爬虫要做的就是方式2；

1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

3、解析内容

解析html数据：正则表达式(RE模块)，第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

4、保存数据

数据库(MySQL，Mongdb、Redis)

文件

三、http协议请求与响应

Request：用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)

Response：服务器接收请求，分析用户发来的请求信息，然后返回数据(返回的数据中可能包含其他链接，如：图片，js，css等)

ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

四、 request

1、请求方式：

常见的请求方式：GET / POST

2、请求的URL

url全球统一资源定位符，用来定义互联网上一个唯一的资源例如：一张图片、一个文件、一段视频都可以用url唯一确定

url编码

https://www.baidu.co

最低0.47元/天解锁文章

weixin_39597399

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python的编程工具spider_python-01 spider原理

用Python可以做什么？可以做日常任务，比如自动备份你的MP3；可以做网站，很多著名的网站包括YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台都是Python开发的。总之就是能干很多很多事啦。Python当然也有不能干的事情，比如写操作系统，这个只能用C语言写；写手机应用，只能用Swift/Objective-C(针对iPhone)和Java(针对Android)；写...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。