网络爬虫基础流程

最新推荐文章于 2023-11-05 16:02:15 发布

青云8969

最新推荐文章于 2023-11-05 16:02:15 发布

阅读量349

点赞数

分类专栏：杂

杂专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.发起请求

通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应。如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型。

基于Urllib的Requests库：主要有：GET/POST两种类型常用，另外还有HEAD/PUT/DELETE/OPTIONS

2.解析内容

得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。

解析方法：

直接处理
Json解析
正则表达式处理
BeautifulSoup解析处理
PyQuery解析处理
XPath解析处理

3.保存数据

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件。

保存方式：

文本：纯文本，excel， Json, Xml等

关系型数据库：如mysql, oracle, sql server等结构化数据库

非关系型数据库：MongoDB, Redis等key-value形式存储

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

青云8969 CSDN认证博客专家 CSDN认证企业博客

码龄7年

50: 原创

10万+: 周排名

109万+: 总排名

6万+: 访问

: 等级

943: 积分

2: 粉丝

20: 获赞

3: 评论

17: 收藏

私信

关注

分类专栏

学习笔记 17篇
Java 4篇
PATB刷刷刷 17篇
杂 7篇

最新评论

ERP简单输入输出系统
m0_63242186: 大佬请问直接运行这段代码就好了吗
PATB1003 我要通过
alone-shadow: 请问下“在P和T中间每增加一个字符，就要在T后面增加A前面的数量，所以是P和T前面的字符数量乘P和T中间的字符数量等于P和T后面的字符数量”这句话怎么理解
红黑树——简单明了的学生思路
进击的皇阿玛: 发现删除的说法，不同人有不同的分类思路，自己还是没有完完全全吃透，遇到问题还是要推好久

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。