node js 小爬虫

 
  node js 小爬虫 
 
var http = require('http');
var cheerio = require('cheerio');
var url = "http://www.imooc.com/learn/348";
var baseurl= "http://www.imooc.com/learn/";
var vediosId=[637,348,259,197,134,75];
var Promise=require('bluebird')

function filterChapters(html) {
    var $ = cheerio.load(html);
    var chapters = $('.chapter');

    var title = $('.course-infos .path span').text();

    var number = parseInt($($('.meta-value strong')[3]).text().trim(), 10);

    var courseData ={
        couseTitle:title,
        number:number,
        videos:[]
    };

    var chapter;
    var chapterTitle;
    var videos;
    var chapterData;
    var video;
    var videoTitle;
    var id;
    var adress;

    chapters.each(function(index, item) {
        chapter = $(item);
        chapterTitle = chapter.find('strong').text();
        videos = chapter.find('li');
        chapterData = {
            'chapterTitle': chapterTitle,
            'videos': []
        };
        videos.each(function(index, item) {
            video = $(item).find('.J-media-item');
            videoTitle = video.text();
            id = video.attr('href').split('video/')[1];
            adress = video.attr('href');

            chapterData.videos.push({
                'title':videoTitle,
                'id':id,
                'adress':adress
            });
        });
        courseData.videos.push(chapterData);
    });
    return courseData;
}

function printCourseInfo(coursesData) {

    var chapterTitle;
    var urlPre = 'URL:http://www.imooc.com';
    coursesData.forEach(function(courseData) {
        chapterTitle = courseData.couseTitle;
        console.log('@@'+chapterTitle + ':' + courseData.number+'人学过!'+ '@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\n');
        courseData.videos.forEach(function(item){
            console.log('###'+item.chapterTitle);
            item.videos.forEach(function(t){
                console.log('   '+t.title+' '+ t.id+' '+ t.adress+'\n');
            })
        })
    });
}
function getPageasync(url){
    return new Promise(function(resolve,reject){
        console.log(url);
        http.get(url, function(res) {
            var html = '';
            res.on('data', function(data) {
                html += data;
            });

            res.on('end', function() {
                resolve(html);
            });
        }).on('error', function(e) {
            reject(e);
            console.log("失败");
        });
    })
}


var fecthCourseArray=[];
vediosId.forEach(function(id){
    fecthCourseArray.push(getPageasync(baseurl+id))
});

Promise.all(fecthCourseArray).then(function(pages){
    var cousesData=[];
    pages.forEach(function(html){
        var couseData=filterChapters(html);
        cousesData.push(couseData)
    });
    cousesData.sort(function(a,b){
        return a.number< b.number
    });
    printCourseInfo(cousesData)
});


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值