从0到1学nodejs爬虫小程序

最新推荐文章于 2024-05-15 16:41:29 发布

BenjaminShih

最新推荐文章于 2024-05-15 16:41:29 发布

阅读量2.5k

点赞数

分类专栏： nodejs 文章标签：爬虫 nodejs 爬图片

本文链接：https://blog.csdn.net/sjn0503/article/details/54409584

版权

什么是爬虫？

wiki是这么解释的：

是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

robots协议

robots.txt是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络爬虫），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。

Robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

说白了，这并不是一项需要强制遵守的规定，这只是一个君子之间的协议，防君子不防小人，但是不遵守这个协议可能导致不正当竞争，各位看官可以自行搜索下～

现简单列举下robots.txt中的一些配置规则，有个大致的印象，也有助于对爬虫逻辑的理解

允许所有机器人：User-agent: *
仅允许特定的机器人：User-agent: name_spider
拦截所有机器人：Disallow: /
禁止机器人访问特定的目录：Disallow: /images/
…

反爬虫(Anti-Spider)

一般网站从三个方面反爬虫：
* 用户请求的Headers
* 用户行为
* 网站目录和数据加载方式
* …

前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度。

通过Headers反爬虫

很多网站通过检测Headers的：
- User-Agent
- Referer

反反爬虫策略：在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名。

基于用户行为反爬虫

通过检测用户行为：
- 同一IP短时间内多次访问同一页面
- 同一账户短时间内多次进行相同操作

反反爬虫策略：1、专门写一个爬虫，爬取网上公开的代理ip，每请求几次更换一个ip；2、每次请求后随机间隔几秒再进行下一次请求

动态页面的反爬虫

上述的几种情况大多都是出现在静态页面，还有一部分网站，我们需要爬取的数据是通过ajax请求得到，或者通过JavaScript生成的

反反爬虫策略：找到ajax请求，也能分析出具体的参数和响应的具体含义，响应的json进行分析得到需要的数据。

需要预备的知识

Javascript 及 JQuery
简单的nodejs基础
http 网络抓包和 URL 基础
对于前端工程师来讲真的是福利啊

需要安装的依赖库

superagent
cheerio
eventproxy
async

superagent

superagent 是个轻量的的 http 方面的库，是 nodejs 里一个非常方便的客户端请求代理模块，方便我们进行 get、post 等网络请求
[slide]

cheerio

可以理解成一个 Nodejs 版的 jQuery，用来从网页中以 css selector 获取数据，使用方式跟 jquery 一毛一样的。

eventproxy

eventproxy 模块是控制并发用的，它来帮你管理到底这些异步操作是否完成，有时我们需要同时发送 N 个 http 请求，然后利用得到的数据进行后期的处理工作, 请求完成之后，它会自动调用你提供的处理函数，并将抓取到的数据当参数传过来，方便处理。

async

async是一个流程控制工具包，提供了直接而强大的异步功能：mapLimit(arr, limit, iterator, callback)

还有强大的同步功能：
mapSeries(arr, iterator, callback)

爬虫实践

光说不练假把式，那么咱就开始吧～

先定义依赖库和全局变量～

// node自带的模块
const path = require('path')
const url = require('url');
const fs = require('fs')
// npm安装的依赖库
const superagent = require('superagent');
const cheerio = require('cheerio');
const eventproxy = require('eventproxy');
const async = require('async');

最低0.47元/天解锁文章

BenjaminShih

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从0到1学nodejs爬虫小程序

什么是爬虫？wiki是这么解释的：是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。robots协议robots.txt是一种存放于网站根目录下的ASCII编码的文本文件，它
复制链接

扫一扫