node.js爬虫01

最新推荐文章于 2021-02-26 23:02:51 发布

远古大猛犸

最新推荐文章于 2021-02-26 23:02:51 发布

阅读量941

点赞数

分类专栏： nodejs 文章标签： NodeJs抓取 nodejs爬虫

nodejs 专栏收录该内容

84 篇文章 0 订阅

订阅专栏

转载：http://blog.csdn.net/kissliux/article/details/19560603

Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台，用来方便地搭建快速的，易于扩展的网络应用· Node.js 借助事件驱动，非阻塞 I/O 模型变得轻量和高效，非常适合 run across distributed devices 的 data-intensive 的实时应用·

提供RSS服务的站点超级多，百度、网易、新浪、虎嗅网等等站点，基于java c++ php的rss抓取网上很多，今天说说NodeJs抓取RSS信息，

使用NodeJs做网络爬虫，抓取RSS新闻。各站点编码格式不一样 GBK,UTF-8,ISO8859-1等等，所以需要进行编码，对国人来说UTF-8是最酷的。抓取多站点，然后保存到数据库，充分利用javascript异步编程的特点，抓取速度超级快呀。

这个项目是为新闻android客户端实现的，以后我也会上传新闻客户端的源码。

本项目的源码托管在github：https://github.com/kissliux/rssSpider

环境需求：

NodeJs(必须), 我的版本是0.10.24

mongodb(可选)，或者mysql等等其他数据库

编程工具：webStrom

第一步：新建nodejs项目，我一般建立express web项目

第二步：在package.json文件添加依赖

[javascript] view plain copy print ?

"dependencies": {
"express": "3.4.8",
"ejs": "*",
"feedparser":"0.16.6",
"request":"2.33.0",
"iconv":"2.0.7",
"mongoose":"3.8.7",
"mongodb":"*"
}

执行以下代码，导入相关的文件到项目node_modules中:

[plain] view plain copy print ?

npm install -d

第三步：

基本准备工作完毕，可以动手了写代码了。RSS抓取，主要依赖于feedparser 库，github地址:http://github.com/danmactough/node-feedparser

先配置下，需要抓取的站点信息。

建立一个rssSite.json文件

[javascript] view plain copy print ?

{
"channel":[
{
"from":"baidu",
"name":"civilnews",
"work":false, //false 则不抓取
"title":"百度国内最新新闻",
"link":"http://news.baidu.com/n?cmd=4&class=civilnews&tn=rss",
"typeId":1
},{
"from":"netEase",
"name":"rss_gn",
"title":"网易最新新闻",
"link":"http://news.163.com/special/00011K6L/rss_gn.xml",
"typeId":2
}
]
}

我要抓取的就是这两个站点，channel的值是一个对象数组,如果你需要多个站点，直接添加就行了。

引入相关的包，

[javascript] view plain copy print ?

var request = require('request')
, FeedParser = require('feedparser')
, rssSite = require('../config/rssSite.json')
, Iconv = require('iconv').Iconv;

需要遍历刚刚配置的channel，找到需要的url地址

[javascript] view plain copy print ?

var channels = rssSite.channel;
channels.forEach(function(e,i){
if(e.work != false){
console.log("begin:"+ e.title);
fetch(e.link,e.typeId);
}
});

work为false的站点，都不进行抓取。即黑名单吧，typeId是标识这个新闻是属于哪个栏目，社会，财经还是其他。

关键在于fetch函数，抓取和分析都在这里了。我先贴代码再来解释

[javascript] view plain copy print ?

function fetch(feed,typeId) {
var posts;
// Define our streams
var req = request(feed, {timeout: 10000, pool: false});
req.setMaxListeners(50);
// Some feeds do not response without user-agent and accept headers.
req.setHeader('user-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
.setHeader('accept', 'text/html,application/xhtml+xml');
var feedparser = new FeedParser();
// Define our handlers
req.on('error', done);
req.on('response', function(res) {
var stream = this
, iconv
, charset;
posts = new Array();
if (res.statusCode != 200) return this.emit('error', new Error('Bad status code'));
charset = getParams(res.headers['content-type'] || '').charset;
if (!iconv && charset && !/utf-*8/i.test(charset)) {
try {
iconv = new Iconv(charset, 'utf-8');
iconv.on('error', done);
stream = this.pipe(iconv);
} catch(err) {
this.emit('error', err);
}
}
stream.pipe(feedparser);
});
feedparser.on('error', done);
feedparser.on('end', function(err){
// postService.savePost(posts); //存到数据库
});
feedparser.on('readable', function() {
var post;
while (post = this.read()) {
posts.push(transToPost(post));//保存到对象数组
}
});
function transToPost(post){
var mPost = new Post({
title : post.title,
link : post.link,
description : post.description,
pubDate : post.pubDate,
source : post.source,
author : post.author,
typeId : typeId
});
return mPost;
}
}