puppeteer实战之网页爬虫，模拟操作《二》

最新推荐文章于 2024-05-12 21:39:58 发布

置顶

Mr_xiatian

最新推荐文章于 2024-05-12 21:39:58 发布

阅读量7.2k

点赞数 1

分类专栏： puppeteer爬虫文章标签： puppeteer 新闻爬虫 node爬虫

本文链接：https://blog.csdn.net/Mr_xiatian/article/details/79240978

版权

1.前言

由于公司有几款新闻，视频类的app产品，于是乎文章和视频的稳定来源成为一个必须解决的问题。公司也研究了很多的
爬虫方案，最后使用puppeteer开发了一个文章的采集中心。这是一个基于node的服务器，主要设计的思路是：当接收到抓取某个站点文章的任务后，node服务器就启动一个爬虫器，将该网站的文章信息解析出来，然后上报给一个java服务器，由java负责数据的处理和存储。在此简单介绍一下node端的实现，这是一个简化版的。

2.使用node写一个接口，负责接收中心服务器的文章爬取任务

node搭建一个微服务的话有很多种，这里使用的是express ，使用 npm install --save express 即可。

var express = require('express');
var app = express();
var download163 = require('../download163.js');

// 设置跨域访问
app.all('*',function(req,res,next){
	res.header("Access-Control-Allow-Origin", "*");
	res.header("Access-Control-Allow-Headers", "X-Requested-With");
	res.header("Access-Control-Allow-Methods","PUT,POST,GET,DELETE,OPTIONS");
	res.header("X-Powered-By",' 3.2.1');
	res.header("Content-Type", "application/json;charset=utf-8");
	next();
});

app.get('/start',function(req,res){
	console.log('接收到分配任务.....');
	var url = req.query.url;
	console.log('url:'+req.query.url)
    console.log('pas:'+req.query.pas)
    try {
    	console.log('开始执行任务.....');
    	new download163(url);
    	res.json({
    		code:200,
    		work:true
    	});

    } catch(e){
    	http404(req,res)
    }
});

var http404 = app.get('/404',function(req,res){
	res.end("404");
});

// 配置服务端口
var server = app.listen(3000,

最低0.47元/天解锁文章

Mr_xiatian

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
puppeteer实战之网页爬虫，模拟操作《二》

1.前言由于公司有几款新闻，视频类的app产品，于是乎文章和视频的稳定来源成为一个必须解决的问题。公司也研究了很多的爬虫方案，最后使用puppeteer开发了一个文章的采集中心。这是一个基于node的服务器，主要设计的思路是：当接收到抓取某个站点文章的任务后，node服务器就启动一个爬虫器，将该网站的文章信息解析出来，然后上报给一个java服务器，由java负责数据的处理和存储。在
复制链接

扫一扫