crawlee自动网页抓取和浏览第一篇

文章介绍了如何在Node.js环境中利用Crawlee和Playwright库创建网络抓取爬虫。首先,确保安装Node.js16或更高版本,然后通过npm安装Crawlee和Playwright。接着,创建并运行示例代码,该代码会抓取页面标题,将结果保存为JSON,并自动将链接添加到抓取队列。在遇到错误时,需修改package.json文件以解决运行问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、简介

crawlee——一个用于 Node.js 的网络抓取和浏览自动化库,可帮助您构建可靠的,快速的爬虫。

二、安装nodejs

Crawlee 需要Node.js 16 或更高版本

三、安装crawlee

#创建文件夹
mkdir crawlee

#进入目录
cd creawlee

#初始化
npm init

运行结果

npm install crawlee playwright

四、运行

创建index.js 文件,文件内容如下:

import { PlaywrightCrawler, Dataset } from 'crawlee';

// PlaywrightCrawler crawls the web using a headless
// browser controlled by the Playwright library.
const crawler = new PlaywrightCrawler({
    // Use the requestHandler to process each of the crawled pages.
    async requestHandler({ request, page, enqueueLinks, log }) {
        const title = await page.title();
        log.info(`Title of ${request.loadedUrl} is '${title}'`);

        // Save results as JSON to ./storage/datasets/default
        await Dataset.pushData({ title, url: request.loadedUrl });

        // Extract links from the current page
        // and add them to the crawling queue.
        await enqueueLinks();
    },
    // Uncomment this option to see the browser window.
    // headless: false,
});

// Add first URL to the queue and start the crawl.
await crawler.run(['https://crawlee.dev']);

 保存,运行程序

node index.js

报错:

修改package.json文件,增加 "type":"module"  

 再次运行

node index.js

能获取出数据就说明运行成功了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qingyou2006

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值