Puppeteer爬虫

const puppeteer = require('puppeteer');
const fs = require("fs");

let scrape = async () => {
    // headless为true时不会弹出浏览器
    const browser = await puppeteer.launch({headless: false});
    const page = await browser.newPage();
    for (var p = 1; p < 33; p++) {
        try {
            await page.goto('https://www.91dub.com/list?page=' + p, {
                timeout: 10000,
                waitUntil: 'networkidle2'
            });
            await page.waitFor('ul');
            let length = await page.evaluate(() => {
                return document.querySelectorAll('#app > div > ul > li').length;
            });
            let result;
            for (var i = 1; i <= length; i++) {
                try {
                    await page.waitFor(500);
                    await page.click('#app > div > ul > li:nth-child(' + i + ') > div > a');
                    await page.waitFor('.btn');
                    let len = await page.evaluate(() => {
                        return document.querySelectorAll('#app > div > div.episode > ul > li').length;
                    });
                    for (var j = 1; j <= len; j++) {
                        try {
                            result = await page.evaluate(() => {
                                let href = document.querySelector('#app > div > div.episode > div.btn > a').getAttribute("href");
                                return href
                            });
                            fs.appendFile('url', result + '\n', function (err) {
                                if (err) {
                                    return console.error(err);
                                }
                            });
                            if (j == len) {
                                break
                            }
                            await page.click('#app > div > div.episode > ul > li:nth-child(' + (j + 1) + ') > span');
                        } catch (e) {
                            console.log('error:', e);
                        }
                    }
                    await page.goto('https://www.91dub.com/list?page=' + p, {
                        timeout: 10000,
                        waitUntil: 'networkidle2'
                    });
                    await page.waitFor('ul');
                } catch (e) {
                    console.log('error:', e);
                }
            }
        } catch (e) {
            console.log('https://www.91dub.com/list?page= ' + p + ':', e);
        }
    }

    browser.close();
    return 'success';
};

scrape().then((value) => {
    console.log(value); // Success!
});

官方参考文档:https://zhaoqize.github.io/puppeteer-api-zh_CN/#/class-Page?id=pagegobackoptions

简化版文档:http://blog.xcatliu.com/2018/09/18/puppeteer_tutorial/

nodeJS相关:https://www.runoob.com/nodejs/nodejs-fs.html

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值