js 爬虫库 , 能帮你快速构建爬虫，star 11k

最新推荐文章于 2024-09-17 11:36:10 发布

罗米笔记

最新推荐文章于 2024-09-17 11:36:10 发布

阅读量546

点赞数 8

文章标签： javascript 爬虫开发语言

本文链接：https://blog.csdn.net/u011757939/article/details/137072443

版权

本文介绍了使用Node.js和Crawlee框架进行爬虫开发的优势，特别强调了JavaScript在编写爬虫中的便利性，并提醒读者注意数据隐私和合规问题，如遵守robots协议。作者还提供了Nest.js中的示例代码和相关资源链接。

摘要由CSDN通过智能技术生成

大家好我是辉子，遇到有用的东西就记录下来，也希望和您成为朋友。关注公众号: 【罗米笔记】，有更好的笔记会及时更新

很多的语言是可以写爬虫的，大家会经常用python ， go 等语言，今天推荐的是nodejs , 为什么会推荐这个，其实我认为js在写爬虫是有一定的优势的。

爬虫应用的领域：

1. 比如做自动化数据的分析

2. 爬取小说，影视等

3. 购物网站的比价及抢购等

反正能用的地方很多，这里就不一一列举。当然爬虫分为通用爬虫和聚焦爬虫，现在经常写的是聚焦爬虫，就是专门去爬取某一些网站进行分析

爬虫爬的好，牢饭少不了，大家使用这门技术的时候一定要注意。

1. 涉及个人隐私的数据

2.抓收费的视频文本音乐等售卖或开网站

3.同行竞争不遵守roboots协议

4. 国家政府网站

推荐这个框架，只是能加快一些开发效率，爬虫的知识不只是这么多，你需要会js、app逆向，只有学习了这些，才算是一个合格的爬虫从业者。

写爬虫可以赚钱，这些大家都知道。比如采集站加广告，购物比价助手，聚合数据平台，自动化操作，抢购等。

推荐的这个js 版的框架是crawlee

在nest.js中进行的演示

npm install crawlee playwrightnpx playwright install --with-deps
const crawler = new PlaywrightCrawler({      async requestHandler({ request, page, enqueueLinks, pushData, log }) {        const title = await page.title();        log.info(`Title of ${request.loadedUrl} is '${title}'`);        await pushData({ title, url: request.loadedUrl });        await enqueueLinks();      },      maxRequestsPerCrawl: 20,    });    await crawler.run(['https://baidu.com']);    await crawler.exportData('./result.csv');

更多参考官方文档，

github: https://github.com/apify/crawlee

另推荐轻量级的爬虫库 : https://node-crawler.readthedocs.io/zh_CN/latest/