大家好我是辉子,遇到有用的东西就记录下来,也希望和您成为朋友。关注 公众号: 【罗米笔记】,有更好的笔记会及时更新
很多的语言是可以写爬虫的,大家会经常用python , go 等语言 , 今天推荐的是nodejs , 为什么会推荐这个,其实我认为js在写爬虫是有一定的优势的。
爬虫应用的领域:
1. 比如做自动化数据的分析
2. 爬取小说,影视等
3. 购物网站的比价及抢购等
反正能用的地方很多,这里就不一一列举。当然爬虫分为通用爬虫和聚焦爬虫,现在经常写的是聚焦爬虫,就是专门去爬取某一些网站进行分析
爬虫爬的好,牢饭少不了,大家使用这门技术的时候一定要注意。
1. 涉及个人隐私的数据
2.抓收费的视频文本音乐等售卖或开网站
3.同行竞争不遵守roboots协议
4. 国家政府网站
推荐这个框架,只是能加快一些开发效率,爬虫的知识不只是这么多,你需要会js、app逆向,只有学习了这些,才算是一个合格的爬虫从业者。
写爬虫可以赚钱,这些大家都知道。比如采集站加广告,购物比价助手,聚合数据平台,自动化操作,抢购等。
推荐的这个js 版的框架是crawlee
在nest.js中进行的演示
npm install crawlee playwright
npx playwright install --with-deps
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, pushData, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
maxRequestsPerCrawl: 20,
});
await crawler.run(['https://baidu.com']);
await crawler.exportData('./result.csv');
更多参考官方文档 ,
github: https://github.com/apify/crawlee
另推荐轻量级的爬虫库 : https://node-crawler.readthedocs.io/zh_CN/latest/