做一个爬虫

最新推荐文章于 2024-05-03 23:13:50 发布

baibaider

最新推荐文章于 2024-05-03 23:13:50 发布

阅读量503

点赞数

分类专栏：前端复习

本文链接：https://blog.csdn.net/baibaider/article/details/79348627

版权

前端复习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

建立spider文件夹
spider文件夹下新建data，image文件夹用来存放爬取到的数据
npm init创建package.json，一路回车
安装依赖：
说明：由于http模块、fs模块都是内置的包，因此不需要额外添加。
这里安装cheerio包，和request包。
在dos中，cd进入spider文件夹，然后
npm install cheerio –save
安装完cheerio包后，继续安装request包， npm install request –save
说明：npm（nodejs package manager），nodejs包管理器；
–save的目的是将项目对该包的依赖写入到package.json文件中。

spider文件夹下建立baibai_spider.js文件来存放爬虫代码

var http = require('http');
var fs = require('fs');
var cheerio = require('cheerio');
var request = require('request');
var i = 0;
var url = 'http://www.ss.pku.edu.cn/index.php/newscenter/news/2391'; //初始url

function fetchPage(x) {  //封装了一层函数
    startRequest(x);
}

function startRequest(x) {

    //采用http模块向服务器发起一次请求
    http.get(x, function (res) {
        var html = '';  //用来存储请求网页的整个html内容
        var titles = [];
        res.setEncoding('utf-8');  //防止中文乱码

    // 监听data事件，每次取一块数据
        res.on('data',function (chunk) {
            html += chunk;
        });
        //监听end事件，如果整个页面内容的html都获取完毕，就执行回调函数
        res.on('end',function () {

            var $ = cheerio.load(html);  //采用cheerio模块解析html

            var time = $('.article-info a:first-child').next().text().trim();
            //trim()用于去除字符串两端的空白字符
            var new_item = {

                //获取文章标题
                title : $('div.artitle-title a').text().trim(),

                //获取文章发布时间
                Time : time,

                //获取当前文章的url
                link : "http://www.ss.pku.edu.cn" + $("div.article-title a").attr('href'),
                //attr方法返回被选元素的属性值

                //获取供稿单位
                author : $('[title=供稿]').text().trim(),

                i : i = i+1,
            };
            console.log(new_item);  //打印新闻信息
            var news_title = $('div.article-title a').text().trim();

            savedContent($,news_title);  //储存每篇文章的内容及文章标题

            savedImg($,news_title);  //储存每篇文章的图片及其标题

            //下一篇文章的url
            var nextLink = "http://www.ss.pku.edu.cn" + $("li.next a").attr('href');
            str1 = nextLink.split('-'); //去掉url后面的中文
            str = encodeURI(str1[0]);  //encodeURI() 函数可把字符串作为 URI 进行编码

            //通过 i 的数量来控制爬取多少文章
            if(i <= 500){
                fetchPage(str);
            }
        });
    }).on('error', function (err) {
        console.log(err);
    });
}

//该函数的作用：在本地存储所爬取的新闻内容资源
function savedContent($ , news_title) {
    $('.article-content p').each(function (index , item) {
        var x = $(this).text();

        var y = x.substring(0,2).trim();

        if(y == ''){
            x = x + '\n';
            //将新闻文本内容一段一段添加到/data文件夹下，并用新闻的标题来命名文件
            fs.appendFile('./data/' + news_title + '.txt', x , 'utf-8', function (err) {
                if(err){
                    console.log(err);
                }
            });
        }
    })
}

//该函数的作用：在本地存储所爬取到的图片资源
function savedImg($ , news_title) {
    $('article-content img').each(function (index , item) {
        var img_title = $(this).parent().next().text().trim(); //获取图片的标题
        if(img_title.length >35 || img_title == ""){
            img_title = "Null";
        }
        var imgfilename = img_title +  '.jpg';

        var img_src = 'http://www.su.pku.edu.cn' + $(this).attr('src'); //获取图片的url

        //采用request模块，向服务器发起一次请求，获取图片资源

        request.head(img_src , function (err , res , body) {
            if(err){
                console.log(err);
            }
        });
        request(img_src).pipe(fs.createWriteStream('./image/' + news_title + '---' + imgfilename));
        //通过流的方式，把图片写到本地/image目录下，并用新闻的标题和图片的标题作为图片的名称。
    })
}

fetchPage(url)  //主程序开始运行

运行这个文件：cd 到你创建工程文件夹spider下，然后 node baibai_spider.js 程序就跑起来了

tips：运行一次之后报错，看说法是爬网站只可以一次，第二次及之后本机ip就被网站拦截了。i一直是1。

baibaider

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
做一个爬虫

建立spider文件夹spider文件夹下新建data，image文件夹用来存放爬取到的数据npm init创建package.json，一路回车安装依赖：说明：由于http模块、fs模块都是内置的包，因此不需要额外添加。这里安装cheerio包，和request包。在dos中，cd进入spider文件夹，然后 npm install cheerio –save安装完cheerio包后，继续安装r...
复制链接

扫一扫

专栏目录