使用node.js爬虫,爬取电影信息,并存储到数据库

本文介绍了如何利用Node.js的axios和cheerio库爬取猫眼电影网站的数据,包括获取电影列表、详细信息,然后通过Promise.all处理并发请求。爬取的数据最终被存储到一个名为'Movie'的数据库表中,该表包含了电影名称、图片URL、上映日期和放映时间等字段。实现过程中还涉及到了数据库连接和表的同步操作。
摘要由CSDN通过智能技术生成

1.在进入正式内容之前首先我们需要了解一下,node.js的由来!

Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎。

2.现在进入正题,我们在爬取数据前,需要先下载模块,那么怎样下载模块呢?需要使用到npm包管理工具。这里我就不说用法了,如果大家感兴趣的话,可以去查一下怎么使用,其实那些命令不多,使用起来也是比较简单的。

3.第一步我们需要做的就是导入模块。

// 导入axios模块 cheerio模块
const axios = require("axios").default;
const cheerio = require("cheerio");
const Movie = require("../module/Movie.js");

4.获取猫眼电影网页源代码信息

// 1.获取猫眼电影网页源代码的所有HTML信息
async function getMovieHTML() {
    const resp = await axios.get("https://maoyan.com/");
    console.log(resp.data);
    return resp.data;
}
// getMovieHTML();

// 得到每一电影的的详情链接,然后转换成数组
async function getMovieLinks() {
    const html = await getMovieHTML();
    // 使用cheerio库
    const $ = cheerio.load(html);
    // console.log($);
    const achorElements = $("#app .content .main .movie-grid .panel .panel-content .movie-list .movie-item>a");
    // console.log(achorElements[0]);
    const links = achorElements.map((i, ele) => {
        const href = ele.attribs["href"];
        return href;
    }).get();
    // console.log(links);
    return links;
}
// getMovieLinks();

5.获取详情页电影的字段信息,并以对象的方式返回出去。

// 3.根据数据的详情页地址进入详情页 得到电影的详细信息
async function getMovieDetail(detailUrl) {
    console.log(detailUrl);
    const resp = await axios.get(`https://maoyan.com${detailUrl}`);
    const $ = cheerio.load(resp.data);
    // 获取电影名
    const name = $('.banner .wrapper .celeInfo-right .movie-brief-container h1').text().trim();
    // 获取图片路径
    const imgUrl = $(".banner .wrapper .celeInfo-left .avatar-shadow img").attr("src");
    // 获取放映时间
    const date = $('.banner .wrapper .celeInfo-right .movie-brief-container ul li').eq(2).text();
    // 截取下时间
    const builtDate = date.substring(0, 10);
    // 电影时间
    const time = $('.banner .wrapper .celeInfo-right .movie-brief-container ul li').eq(1).text().split('/')[1].trim();
    // console.log(e);
    return {
        name,
        imgUrl,
        builtDate,
        time
    }
}
// getMovieDetail("https://maoyan.com/films/338384");

最后获取所有的电影信息,并存入到数据库里面

// 获取所有电影的信息
async function fetchAll() {
    const links = await getMovieLinks();
    const proms = links.map((link) => {
        return getMovieDetail(link)
    })
    return Promise.all(proms)
}

async function savaToDB() {
    const movies = await fetchAll();
    await Movie.bulkCreate(movies)
    console.log("数据保存至数据库")
}
savaToDB()

对了还需要导入创建表的js文件,Movie.js文件。

const sequelize = require("./db.js")
const {
    DataTypes
} = require('sequelize');

const Movie = sequelize.define('Movie', {
    name: {
        type: DataTypes.STRING,
        allowNull: false
    },
    time: {
        type: DataTypes.STRING,
        allowNull: false
    },
    builtDate: {
        type: DataTypes.STRING,
        allowNull: false
    },
    imgUrl: {
        type: DataTypes.STRING,
        allowNull: false
    }
}, {
    paranoid: true,
});


module.exports = Movie;

还需要连接数据库的js文件,这里我取名为db.js文件。

// 连接数据库
// 引入sequelize插件,使用npm下载

const { Sequelize } = require('sequelize');

const sequelize = new Sequelize('test', 'root', 'root', {
    host: 'localhost',
    dialect: 'mysql'
});

module.exports = sequelize;

还有就是执行连接数据库和建表的js文件。在node环境中运行这个文件,让它在数据库里面生成表。

require("./Movie")
const sequelize = require("./db");


(async function() {
    await sequelize.sync({
        alter: true
    });
    console.log("用户表已创建!!");
})()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值