phantomjs 配置和使用_Puppeteer使用中的那些坑

最新推荐文章于 2023-05-15 18:01:23 发布

mlopscommunity

最新推荐文章于 2023-05-15 18:01:23 发布

阅读量413

点赞数 1

文章标签： phantomjs 配置和使用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42245736/article/details/112155505

版权

由于近期一个项目中需要采集一批数据进行分析，手头暂时并没有团队，所以干了一阵抓数据的工作。

为什么会采用puppeteer？

万事开头难，选择什么方式采集数据是项目的第一步。最开始的想法是抓包进行分析，但是目标网站数量过于庞大，自己一个人干显然有点扛不住。更何况，后续的分析和建模型才是项目的重头戏，想想还是前边做得简单一点，留点力气后边搬砖。

当然，最重要的原因其实是，某几个网站的反爬实在是看得头都大了。

所以，世上无难事，只要肯放弃。果断选择无头浏览器采集（事实上，也有很多针对无头浏览器的反爬机制，以后有机会再讲）

于是，就有以下如下几个选择：

phantomjs：据说已经不维护了，果断放弃

selenium：成熟稳定，支持更多语言，但是容易触发针对selenium的一些反爬机制

puppeteer：性能和灵活性较高，但需要nodejs开发

事实上，最开始的想法是selenium，毕竟更成熟一些。但是，在尝试用selenium控制chroomeheadless之后，比较容易被一些网站识别为爬虫。而尝试切换为firefox之后，却发现性能并不理想。

所以，最终决定采用puppeteer了。

不要使用pyppeteer！

由于项目的主体部分打算用python来写，再加上自己很少写nodejs，所以首先想到的是能否在python下实现。于是，网上各种不靠谱的技术博客纷纷推荐了py

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
phantomjs 配置和使用_Puppeteer使用中的那些坑

由于近期一个项目中需要采集一批数据进行分析，手头暂时并没有团队，所以干了一阵抓数据的工作。为什么会采用puppeteer？万事开头难，选择什么方式采集数据是项目的第一步。最开始的想法是抓包进行分析，但是目标网站数量过于庞大，自己一个人干显然有点扛不住。更何况，后续的分析和建模型才是项目的重头戏，想想还是前边做得简单一点，留点力气后边搬砖。当然，最重要的原因其实是，某几个网站的反爬实在是看得头都大了...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。