- 建立spider文件夹
- spider文件夹下新建data,image文件夹用来存放爬取到的数据
- npm init创建package.json,一路回车
- 安装依赖:
说明:由于http模块、fs模块都是内置的包,因此不需要额外添加。
这里安装cheerio包,和request包。
在dos中,cd进入spider文件夹,然后
npm install cheerio –save安装完cheerio包后,继续安装request包, npm install request –save
说明:npm(nodejs package manager),nodejs包管理器;
–save的目的是将项目对该包的依赖写入到package.json文件中。 spider文件夹下建立baibai_spider.js文件来存放爬虫代码
var http = require('http'); var fs = require('fs'); var cheerio = require('cheerio'); var request = require('request'); var i = 0; var url = 'http://www.ss.pku.edu.cn/index.php/newscenter/news/2391'; //初始url function fetchPage(x) { //封装了一层函数 startRequest(x); } function startRequest(x) { //采用http模块向服务器发起一次请求 http.get(x, function (res) { var html = ''; //用来存储请求网页的整个html内容 var titles = []; res.setEncoding('utf-8'); //防止中文乱码 // 监听data事件,每次取一块数据 res.on('data',function (chunk) { html += chunk; }); //监听end事件,如果整个页面内容的html都获取完毕,就执行回调函数 res.on('end',function () { var $ = cheerio.load(html); //采用cheerio模块解析html var time = $('.article-info a:first-child').next().text().trim(); //trim()用于去除字符串两端的空白字符 var new_item = { //获取文章标题 title : $('div.artitle-title a').text().trim(), //获取文章发布时间 Time : time, //获取当前文章的url link : "http://www.ss.pku.edu.cn" + $("div.article-title a").attr('href'), //attr方法返回被选元素的属性值 //获取供稿单位 author : $('[title=供稿]').text().trim(), i : i = i+1, }; console.log(new_item); //打印新闻信息 var news_title = $('div.article-title a').text().trim(); savedContent($,news_title); //储存每篇文章的内容及文章标题 savedImg($,news_title); //储存每篇文章的图片及其标题 //下一篇文章的url var nextLink = "http://www.ss.pku.edu.cn" + $("li.next a").attr('href'); str1 = nextLink.split('-'); //去掉url后面的中文 str = encodeURI(str1[0]); //encodeURI() 函数可把字符串作为 URI 进行编码 //通过 i 的数量来控制爬取多少文章 if(i <= 500){ fetchPage(str); } }); }).on('error', function (err) { console.log(err); }); } //该函数的作用:在本地存储所爬取的新闻内容资源 function savedContent($ , news_title) { $('.article-content p').each(function (index , item) { var x = $(this).text(); var y = x.substring(0,2).trim(); if(y == ''){ x = x + '\n'; //将新闻文本内容一段一段添加到/data文件夹下,并用新闻的标题来命名文件 fs.appendFile('./data/' + news_title + '.txt', x , 'utf-8', function (err) { if(err){ console.log(err); } }); } }) } //该函数的作用:在本地存储所爬取到的图片资源 function savedImg($ , news_title) { $('article-content img').each(function (index , item) { var img_title = $(this).parent().next().text().trim(); //获取图片的标题 if(img_title.length >35 || img_title == ""){ img_title = "Null"; } var imgfilename = img_title + '.jpg'; var img_src = 'http://www.su.pku.edu.cn' + $(this).attr('src'); //获取图片的url //采用request模块,向服务器发起一次请求,获取图片资源 request.head(img_src , function (err , res , body) { if(err){ console.log(err); } }); request(img_src).pipe(fs.createWriteStream('./image/' + news_title + '---' + imgfilename)); //通过流的方式,把图片写到本地/image目录下,并用新闻的标题和图片的标题作为图片的名称。 }) } fetchPage(url) //主程序开始运行
- 运行这个文件:cd 到你创建工程文件夹spider下,然后 node baibai_spider.js 程序就跑起来了
tips:运行一次之后报错,看说法是爬网站只可以一次,第二次及之后本机ip就被网站拦截了。i一直是1。