1、HTTP爬虫
1、在node的http模块中有get和request连个接口来完成数据的获取或者提交,对于get和request我们可以去官网先看看这两个方法http://nodejs.cn/api/http.html#http_http_methods,这两个方法我们在后面的博客中还会提到。现在我们来做个爬虫来爬https://www.imooc.com/learn/348。
2、首先我们要去获得该页面的html源码
var http = require('http');
var url='http://www.imooc.com/learn/348';
http.get(url,function(res){
var html='';
res.on('data',function(data){ //将data事件绑定到匿名函数,data事件实际上在重复着发生,这个function实际也在重复的进行
html+=data; //将获得的数据不断添加到html变量中
})
res.on('end',function(){ //在响应结束的事件发生后,绑定到匿名函数中,匿名函数负责打印所有的html代码
console.log(html) //输出一堆html的代码
})
}).on('error',function(){
console.log('获取课程数据出现了错误')
})