做一个爬虫

  1. 建立spider文件夹
  2. spider文件夹下新建data,image文件夹用来存放爬取到的数据
  3. npm init创建package.json,一路回车
  4. 安装依赖:

    说明:由于http模块、fs模块都是内置的包,因此不需要额外添加。

    这里安装cheerio包,和request包。

    在dos中,cd进入spider文件夹,然后 
    npm install cheerio –save

    安装完cheerio包后,继续安装request包, npm install request –save

    说明:npm(nodejs package manager),nodejs包管理器; 
    –save的目的是将项目对该包的依赖写入到package.json文件中。

  5. spider文件夹下建立baibai_spider.js文件来存放爬虫代码

    var http = require('http');
    var fs = require('fs');
    var cheerio = require('cheerio');
    var request = require('request');
    var i = 0;
    var url = 'http://www.ss.pku.edu.cn/index.php/newscenter/news/2391'; //初始url
    
    function fetchPage(x) {  //封装了一层函数
        startRequest(x);
    }
    
    function startRequest(x) {
    
        //采用http模块向服务器发起一次请求
        http.get(x, function (res) {
            var html = '';  //用来存储请求网页的整个html内容
            var titles = [];
            res.setEncoding('utf-8');  //防止中文乱码
    
        // 监听data事件,每次取一块数据
            res.on('data',function (chunk) {
                html += chunk;
            });
            //监听end事件,如果整个页面内容的html都获取完毕,就执行回调函数
            res.on('end',function () {
    
                var $ = cheerio.load(html);  //采用cheerio模块解析html
    
                var time = $('.article-info a:first-child').next().text().trim();
                //trim()用于去除字符串两端的空白字符
                var new_item = {
    
                    //获取文章标题
                    title : $('div.artitle-title a').text().trim(),
    
                    //获取文章发布时间
                    Time : time,
    
                    //获取当前文章的url
                    link : "http://www.ss.pku.edu.cn" + $("div.article-title a").attr('href'),
                    //attr方法返回被选元素的属性值
    
                    //获取供稿单位
                    author : $('[title=供稿]').text().trim(),
    
                    i : i = i+1,
                };
                console.log(new_item);  //打印新闻信息
                var news_title = $('div.article-title a').text().trim();
    
                savedContent($,news_title);  //储存每篇文章的内容及文章标题
    
                savedImg($,news_title);  //储存每篇文章的图片及其标题
    
                //下一篇文章的url
                var nextLink = "http://www.ss.pku.edu.cn" + $("li.next a").attr('href');
                str1 = nextLink.split('-'); //去掉url后面的中文
                str = encodeURI(str1[0]);  //encodeURI() 函数可把字符串作为 URI 进行编码
    
                //通过 i 的数量来控制爬取多少文章
                if(i <= 500){
                    fetchPage(str);
                }
            });
        }).on('error', function (err) {
            console.log(err);
        });
    }
    
    //该函数的作用:在本地存储所爬取的新闻内容资源
    function savedContent($ , news_title) {
        $('.article-content p').each(function (index , item) {
            var x = $(this).text();
    
            var y = x.substring(0,2).trim();
    
            if(y == ''){
                x = x + '\n';
                //将新闻文本内容一段一段添加到/data文件夹下,并用新闻的标题来命名文件
                fs.appendFile('./data/' + news_title + '.txt', x , 'utf-8', function (err) {
                    if(err){
                        console.log(err);
                    }
                });
            }
        })
    }
    
    //该函数的作用:在本地存储所爬取到的图片资源
    function savedImg($ , news_title) {
        $('article-content img').each(function (index , item) {
            var img_title = $(this).parent().next().text().trim(); //获取图片的标题
            if(img_title.length >35 || img_title == ""){
                img_title = "Null";
            }
            var imgfilename = img_title +  '.jpg';
    
            var img_src = 'http://www.su.pku.edu.cn' + $(this).attr('src'); //获取图片的url
    
            //采用request模块,向服务器发起一次请求,获取图片资源
    
            request.head(img_src , function (err , res , body) {
                if(err){
                    console.log(err);
                }
            });
            request(img_src).pipe(fs.createWriteStream('./image/' + news_title + '---' + imgfilename));
            //通过流的方式,把图片写到本地/image目录下,并用新闻的标题和图片的标题作为图片的名称。
        })
    }
    
    fetchPage(url)  //主程序开始运行

  6. 运行这个文件:cd 到你创建工程文件夹spider下,然后 node baibai_spider.js 程序就跑起来了

tips:运行一次之后报错,看说法是爬网站只可以一次,第二次及之后本机ip就被网站拦截了。i一直是1。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值