爬虫知多少-（NodeJS 爬虫）

最新推荐文章于 2024-07-26 08:57:17 发布

南方有乔木

最新推荐文章于 2024-07-26 08:57:17 发布

阅读量821

点赞数

分类专栏：【封存】

原文链接：https://zhuanlan.zhihu.com/p/38347588

版权

【封存】专栏收录该内容

178 篇文章 4 订阅

订阅专栏

爬虫知多少-（NodeJS 爬虫）

一、爬虫简介

二、爬虫的运作方式

三、抓取策略

（1）深度优先搜索

（2）广度优先搜索

四、爬虫攻防之爬虫与反爬虫

1、校验用户户请求的Headers

反爬虫策略：

对Headers的User-Agent进行检测
对Referer进行检测

应对方式：

将浏览器的User-Agent复制到爬虫的Headers中
将Referer值修改为目标网站域名

2、基于用户行为反爬虫

反爬虫策略：

监控同一IP短时间内多次访问同一页面
监控同一账户短时间内多次进行相同操作

应对方式：

使用IP代理，每请求几次更换一个 ip
控制请求的速率，增加时间间隔
黑科技：Baiduspider+

3、动态页面的反爬虫

反爬虫策略：

验证码
ajax 加密

应对方式：

phantomJS（无界面 webkit 内核浏览器）
Headless Chrome （无界面 chrome 浏览器）

五、如何使用 NodeJS 进行爬虫开发

1、请求

request
superagent

2、分析

cheerio

3、url处理

url (Node.js 标准库包含了该模块)

4、控制并发

eventproxy
目标源较少，用于汇总数据
async
目标源较多或者不确定，需要使用队列，并且控制并发数

5、数据存储

sqlite
neo4j
其他关系型、非关系型数据库

南方有乔木

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

南方有乔木 CSDN认证博客专家 CSDN认证企业博客

码龄9年

284: 原创

3万+: 周排名

125万+: 总排名

50万+: 访问

: 等级

5626: 积分

238: 粉丝

243: 获赞

54: 评论

792: 收藏

私信

关注

热门文章

分类专栏

最新评论

爬虫中的User-Agent和IP代理
.LBY: 太厉害啦学到了！感谢大佬的分享～开始学习！
Chromium Mojo消息管道的创建和使用文档
BranZhai: 感觉博主的复现不了很多头文件什么的现在也已经改名了权当看看思想，
Chromium Mojo消息管道的创建和使用文档
BranZhai: ../../content/browser/renderer_host/render_frame_host_impl.cc:16928:18: note: in instantiation of function template specialization 'std::make_unique<content::LoggerImpl, mojo::PendingReceiver<Bran::mojom::Logger>>' requested here 16928 | logger_ = std::make_unique<content::LoggerImpl>(std::move(receiver)); 为什么会失败呢主要问题是： /Users/bran/Code/chromium/src/out/Default/../../third_party/libc++/src/include/__memory/unique_ptr.h:65:19: error: invalid application of 'sizeof' to an incomplete type 'content::LoggerImpl' 65 | static_assert(sizeof(_Tp) >= 0, "cannot delete an incomplete type"); 但是我明明头文件什么的都包含了
【Maven】IDEA中Maven生命周期
Gemini要加油: 感谢作者，讲的很清楚
Chrome采集内核代码说明文档
瓦力船长: 大佬你们这个采集功能有开源吗？

大家在看

基于指纹和六角键盘的门锁系统 122

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。