js 爬虫库 , 能帮你快速构建爬虫 ,star 11k

本文介绍了使用Node.js和Crawlee框架进行爬虫开发的优势,特别强调了JavaScript在编写爬虫中的便利性,并提醒读者注意数据隐私和合规问题,如遵守robots协议。作者还提供了Nest.js中的示例代码和相关资源链接。
摘要由CSDN通过智能技术生成

大家好我是辉子,遇到有用的东西就记录下来,也希望和您成为朋友。关注 公众号: 【罗米笔记】,有更好的笔记会及时更新

很多的语言是可以写爬虫的,大家会经常用python , go 等语言 , 今天推荐的是nodejs , 为什么会推荐这个,其实我认为js在写爬虫是有一定的优势的。

爬虫应用的领域:

1. 比如做自动化数据的分析

2. 爬取小说,影视等

3. 购物网站的比价及抢购等

反正能用的地方很多,这里就不一一列举。当然爬虫分为通用爬虫和聚焦爬虫,现在经常写的是聚焦爬虫,就是专门去爬取某一些网站进行分析

爬虫爬的好,牢饭少不了,大家使用这门技术的时候一定要注意。

1. 涉及个人隐私的数据

2.抓收费的视频文本音乐等售卖或开网站

3.同行竞争不遵守roboots协议

4. 国家政府网站

推荐这个框架,只是能加快一些开发效率,爬虫的知识不只是这么多,你需要会js、app逆向,只有学习了这些,才算是一个合格的爬虫从业者。

写爬虫可以赚钱,这些大家都知道。比如采集站加广告,购物比价助手,聚合数据平台,自动化操作,抢购等。

推荐的这个js 版的框架是crawlee 

图片

在nest.js中进行的演示

​​​​​​​

npm install crawlee playwrightnpx playwright install --with-deps
const crawler = new PlaywrightCrawler({      async requestHandler({ request, page, enqueueLinks, pushData, log }) {        const title = await page.title();        log.info(`Title of ${request.loadedUrl} is '${title}'`);        await pushData({ title, url: request.loadedUrl });        await enqueueLinks();      },      maxRequestsPerCrawl: 20,    });    await crawler.run(['https://baidu.com']);    await crawler.exportData('./result.csv');

更多参考官方文档 ,

github: https://github.com/apify/crawlee

另推荐轻量级的爬虫库 : https://node-crawler.readthedocs.io/zh_CN/latest/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗米笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值