【爬虫学习】爬虫基本流程

最新推荐文章于 2023-12-28 13:55:31 发布

优衣库颜值担当

最新推荐文章于 2023-12-28 13:55:31 发布

阅读量1.5k

点赞数 11

分类专栏：个人技能文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cydiachencc/article/details/80584616

版权

个人技能专栏收录该内容

7 篇文章 0 订阅

订阅专栏

标签（空格分隔）：数据挖掘爬虫

1 爬虫的流程

1、发起请求；
2、获取相应内容；
3、解析网络内容；
4、保存数据（结构化存储）；

2 什么是request和response

User -> Server : Request
Server -> User : Response

3 Request内容

1、请求方式：get,post,head,put,delete
2、get和post的区别：请求的参数包含的部分不同；get请求可以直接通过输入访问，post只能由提交表单进行实现。
3、请求url：
4、请求头：浏览器的配置信息；
5、请求体：post内容请求体；

4 response内容

1、响应状态码；
2、响应头；
3、响应体；

5 能抓取什么数据

只要能获取到，都可以抓；

6 解析方式

1、直接处理；
2、json解析；
3、正则表达式；
4、BeautifulSoup提取；
5、pyquery和xpath提取；

7 为什么我抓到的和浏览器中的不一样

微博的话很多用的都是js格式。原生的html代码没有那么多微博的信息的。

8 怎么解决javascript渲染问题

1、分析ajax请求，返回的json字符串；
2、使用webdriver进行加载一个文件
3、splash库进行；
4、用另外的库进行模拟；

9 怎么保存数据

1、文本；
2、关系型数据库；
3、非关系型数据库；
4、二进制文件；

优衣库颜值担当

关注

11
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
【爬虫学习】爬虫基本流程

标签（空格分隔）：数据挖掘爬虫 1 爬虫的流程1、发起请求； 2、获取相应内容； 3、解析网络内容； 4、保存数据（结构化存储）；2 什么是request和responseUser -&gt; Server : Request Server -&gt; User : Response3 Request内容1、请求方式：get,post,head,...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。