Python爬虫学了几个月却不敢接单？过来人的经验总结收好！_爬虫接单(1)

2401_84563287

于 2024-05-02 22:00:09 发布

阅读量784

点赞数 23

分类专栏：程序员文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84563287/article/details/138401296

版权

本文主要介绍了Python爬虫的基础工作流程，包括发起请求、获取响应、解析内容和保存数据。强调了合法合规爬取的重要性，特别是尊重网站的Robots协议。同时，分享了如何接单的经验，推荐了一些接单平台，并给出了接单时应注意的事项和避免的风险。

摘要由CSDN通过智能技术生成

2）爬虫的工作流程

简记为“爬虫四部曲”；
在这里插入图片描述
① 发起请求

使用http库向目标站点发起请求，即发送一个Request；

Request包含：请求头、请求体等；

如果只进行基本的爬虫网页抓取，urllib库足够用，Requests使用起来更简洁，自带json解析器，应付大多数的静态网页爬取问题不大。

涉及到动态网页抓取的话就要用到Selenium了，通常配合PhantomJS使用,，Selenium+PhantomJS可以抓取那些使用JS加载数据的网页。

② 获取响应内容

如果服务器能正常响应，则会得到一个Response；

Response包含：html、json、图片、视频等；

③ 解析内容

解析html数据：正则表达式、第三方解析库如Beautifulsoup、pyquery等；

解析json数据：json模块

解析二进制数据：以b的方式写入文件

个人一般情况下会用bs4，bs4无法满足就用正则。

正则一般用来满足特殊需求、以及提取其他解析器提取不到的数据，re速度比较快，但是写正则比较麻烦。

前端基础比较扎实的，用pyquery是最方便的，当然了，自己哪个用着方便就用哪个，无需纠结。

④ 保存数据

需要用到数据库；

小规模数据：可以使用txt文件、json文件、csv文件等方式来保存文件；
大规模数据：就需要使用mysql、mongodb、redis等数据库；
这步比较简单，掌握主流的数据库使用就差不多了。

1.如果是对爬虫这个领域很感兴趣的可以去听听免费的公开课，看看自己的学习天赋如何，下方大家可以微信扫描下方CSDN官方认证二维码免费领取

2.爬虫学习资料下方也有整理一部分（有视频教程，文档，写好的代码文件，以及一些爬虫所需要的软件安装包），有需要的可以下方自提

最低0.47元/天解锁文章

关注

23
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学了几个月却不敢接单？过来人的经验总结收好！_爬虫接单(1)

2）爬虫的工作流程简记为“爬虫四部曲”；① 发起请求使用http库向目标站点发起请求，即发送一个Request；Request包含：请求头、请求体等；② 获取响应内容如果服务器能正常响应，则会得到一个Response；Response包含：html、json、图片、视频等；③ 解析内容解析html数据：正则表达式、第三方解析库如Beautifulsoup、pyquery等；解析json数据：json模块解析二进制数据：以b的方式写入文件。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。