nodejs 写爬虫爬取最近上映电影数据

直接上代码:这是http模块

'use strict'
//引入内建和第三方模块
const https = require("https")
const url = require("url")
const Promise = require("bluebird")

//创建启动服务模块
function start(url){
	return new Promise((resolve,reject)=>{
			https.get(url,(res)=>{
			const statusCode = res.statusCode
			const contentType = res.headers['content-type']

			let error

			if(statusCode != 200){
				error = new Error(`请求失败.\n`+`code:${statusCode}`)
			}

			if(error){
				console.log(error)
				res.resume()
				return
			}

			res.setEncoding("utf-8")
			let getData = ""

			res.on("data",(datachunk)=>{
				getData += datachunk
			})

			res.on("end",()=>{
				resolve(getData)
			})
		}).on("error",(e)=>{
			reject(e)
			console.log("获取数据出错")
		})
	})
}


exports.start = start

主程序入口:

const crawler = require("./crawler")
const querystring = require("querystring")
const cheerio = require("cheerio")
const fs = require("fs")
//url
const douban_url = "https://movie.douban.com/nowplaying/chengdu/"

crawler.start(douban_url).then(res=>{
	var $ = cheerio.load(res)
	var data = []
	$('#nowplaying .list-item').each(function(i,e){
		var obj = "obj" + i
		obj = {}
		obj.title = $(e).attr("data-title")+"\n"
		obj.score = $(e).attr("data-score")+"\n"
		obj.src = $('#nowplaying .list-item img').attr("src")+"\n"
		data.push(obj)
	})
	fs.writeFileSync("./get_data/data.txt",JSON.stringify(data));
})


效果展示:


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一般来说,在爬取网站列表数据的代码中,你需要获取到每个列表项的链接,然后再通过这个链接去爬取详情数据。可以使用像 `request` 或 `axios` 这样的 Node.js HTTP 客户端,或者使用像 `cheerio` 或 `puppeteer` 这样的 HTML 解析库,来实现这个过程。 下面是一个示例代码,用于爬取一个虚构的网站中的商品列表和商品详情: ```javascript const request = require('request'); const cheerio = require('cheerio'); // 爬取商品列表 request('http://example.com/products', (error, response, body) => { if (error) { console.error(error); return; } const $ = cheerio.load(body); const productLinks = []; // 获取每个商品链接 $('a.product-link').each((i, el) => { const link = $(el).attr('href'); productLinks.push(link); }); // 爬取每个商品的详情 productLinks.forEach(link => { request(`http://example.com${link}`, (error, response, body) => { if (error) { console.error(error); return; } const $ = cheerio.load(body); const productName = $('h1.product-name').text(); const productDescription = $('div.product-description').text(); console.log(`商品名称:${productName}`); console.log(`商品描述:${productDescription}`); }); }); }); ``` 在这个示例中,我们首先使用 `request` 库来请求商品列表页面,然后使用 `cheerio` 库解析 HTML 并获取每个商品的链接。接着,我们遍历每个链接,使用 `request` 库再次请求该链接,然后解析 HTML 并提取商品名称和描述信息。最后,我们将这些信息打印输出到控制台。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值