一、HTTP相关知识
HTTP是一种协议,计算机要共同遵从这种规则,才能相互通信。
- http客户端发起请求,创建端口
- http服务器在端口监听客户请求
- http服务器向客户端返回状态和内容
浏览器打开一个网站,http走过的环节
Ⅰ 首先,对网站进行DNS域名解析
- 1、浏览器搜索自身的DNS缓存
- 2、搜索操作系统自身的DNS缓存(浏览器没有找到缓存或过期)
- 3、读取本地的HOST文件
- 4、浏览器发起一个DNS的一个系统调用
4.1宽带运营商服务器查看本身缓存-》
4.2运营商服务器发起一个迭代DNS解析的请求(根域->顶级域->域名注册商(IP地址))
4.3运营商服务器把结果返回给操作系统内核同时缓存起来
4.4操作系统内核把结果返回给浏览器
- 5、让浏览器拿到网站的IP地址,DNS解析完成,发起HTTP"三次握手"
- 6、TCP/IP连接建立起来后,浏览器就可以向服务器发送HTTP请求,比方说,用HTTP的GET方法请求一个根域里的一个域名,协议可以采用HTTP1.0的一个协议
- 7、服务器端接受到了这个请求,根据路径参数,经过后端的一些处理之后,把处理后的一个结果的数据返回给浏览器。(这时会把网站完整的HTML页面代码返回给浏览器)
- 8、浏览器拿到了网站的完整的HTML页面代码,在解析和渲染这个页面的时候,里面的JS、CSS、图片静态资源,他们同样也是一个个HTTP请求,都需要经过上面的主要的七个步骤.
- 9、浏览器根据拿到的资源对页面进行渲染,最终把一个完整的页面呈现给了用户
Ⅱ HTTP流程可分为请求/响应两部分
HTTP的组成:
- HTTP: 发送的是一些附加的信息(内容类型服务器发送响应的日期,HTTP状态码)
- 正文信息: 用户提交的表单信息
二、以具体网站分析HTTP的流程
http请求方法:
- Get:获取,读取数据
- Post:提交资源
- Put:更新
- Delete:删除
- Head 与get方法相同,但服务器不传回资源
状态码:服务器端返回浏览器,告知浏览器请求成功或失败的信息
- 1XX请求已经接受
- 2XX请求成功并处理成功
- 3XX重定向
- 4XX客户端错误
- 5XX服务器端错误
- 200:OK,请求成功
- 400:客户端请求有语法错误
- 401:请求未经授权
- 403:收到请求,但不提供服务
- 404:资源未找到
- 500:服务器端未知错误
- 503:服务器端当前不能处理请求
三、事件回调进阶
Nodejs中http模块不解析请求的具体内容,只分离出请求头和请求体
1、什么是回调函数?
回调试异步编程时的基础,将后续逻辑封装成起始函数的参数,逐层嵌套
function learn(something){ console.log(something) } function we(callback, something){ something += 'is cool' callback(something) } //传入具名函数 we(learn, 'Nodejs') //传入匿名函数 we(function(something){ console.log(something) }, 'Jade')
2、什么事同步/异步?
同步:发送方发送数据后,等待接收方发回响应以后才发下一个数据包的通讯方式
异步:发送方发出数据后,不等接收方发回响应,接着发送下个数据包的通讯方式
3、什么是I/O?
磁盘的写入(in)磁盘的读取(out)
4、什么是单线程/多线程?
一次只能执行一个程序叫做单线程 一次能执行多个程序叫做多线程
5、什么是阻塞/非阻塞?
阻塞:前一个程序未执行完就得一直等待
非阻塞:前一个程序未执行完时可以挂起,继续执行其他程序,等到使用时再执行
6、什么是事件?
一个触发动作(例如点击按钮)
7、什么是事件驱动?
一个触发动作引起的操作(例如点击按钮后弹出一个对话框)
function clickIt(e){ window.alert('Button is clicked') } var button = document.getElementById('#button') button.addEventListener('click', clickIt)
8、什么是基于事件驱动的回调?
为了某个事件注册了回调函数,但是这个回调函数不是马上执行,只有当事件发生的时候,才会调用回掉函数,这种函数执行的方式叫做事件驱动~这种注册回调就是基于事件驱动的回调,如果这些回调和异步I/O(数据写入、读取)操作相关,可以看作是基于回调的异步I/O。只不过这种回调在nodejs中是有事件来驱动的
9、什么是事件循环?
事件循环Eventloop,倘若有大量的异步操作,一些I/O的耗时操作,甚至是一些定时器控制的延时操作,它们完成的时候都要调用相应的回调函数,而从完成一些密集的任务,而又不会阻塞整个程序执行的流程,此时需要一种机制来管理,这种机制叫做事件循环 总而言之,管理大量异步操作的机制叫做事件循环
EventLoop: 回调函数队列,异步执行的函数会被压入这个队列;队列被循环查询。
四、HTTP源码解读之作用域与上下文
1、什么是作用域?
与调用函数,访问变量的能力有关。
作用域分为:局部和全局(在局部作用域里可以访问到全局作用域的变量,但在局部作用域外面就访问不到局部作用域里面所设定的变量)
//定义一个全局变量 var globalVariable = 'This is global variable' //定义一个全局作用域 function globalFunction(){ //在全局作用域里定义一个局部变量 var localVariable = 'This is local variable' //打印出全局变量和局部变量 console.log('Visit global/loacal variable') console.log(globalVariable) console.log(localVariable) //改变全局变量 globalVariable = 'This is changed variable' //打印已经改变的全局变量 console.log(globalVariable) //在全局作用域里定义一个局部函数 function localFunction(){ //在局部作用域里定义一个局部变量 var innerLocalVariable = 'This is inner local variable' //打印全局变量,局部变量,内部局部变量 console.log('Visit global/local/innerLocal variable') console.log(globalVariable) console.log(localVariable) console.log(innerLocalVariable) } localFunction() } globalFunction() //输出结果 //Visit global/loacal variable //This is global variable //This is local variable //This is changed variable //Visit global/local/innerLocal variable //This is changed variable //This is local variable //This is inner local variable
2、什么是上下文?
与this关键字有关,是调用当前可执行的代码的引用,this总是指向调用这个方法的对象
js里的this通常是当前函数的拥有者 this是js的一个关键字,代表函数运行时自动生成的一个内部对象,只能在函数内部使用
1.作为对象的方法
this在方法的内部,this就指向调用这个方法的对象
var pet ={ words: '...', speak: function(){ console.log(this.words)// '...' console.log(this == pet)//true } } //speak()方法里的this指向拥有speak()方法的对象pet, //所以 this == pet 为true pet.speak()
2.函数的调用
this指向执行环境中的全局变量(浏览器->window || nodejs ->global)
function pet(words){ this.words = words; console.log(this.words) // '...' console.log(this === gloabal)//true } pet('...')
3.构造函数
this所在的方法被实例对象所调用,那么this就指向这个实例化对象
function Pet(words){ this.words = words this.speak = function(){ console.log(this.words) //Miao console.log(this)//打印出this指向的整个实例化对象,{words: 'Miao',speak: [Function]} } } var cat = new Pet('Miao') cat.speak() //speak()里面的this指向cat
3、更改上下文方法
(更改this指向的内容,可方便地实现继承):
- call(list);
- apply(array);
两者的作用完全相同,只是接收参数的方式不太一样
都是为了改变某个函数运行时的context即上下文而存在的,换句话说,就是为了改变函数内部this的指向。
var Pet = { words: '...0', speak: function(say){ console.log(say+ ' ' +this.words) } } pet.speak('Speak') //Speak ... var dog = { words: 'Wang' } pet.speak.call(dog, 'Speak') // Speak Wang //call()将pet.speak指定的原来的对象pet转换为指向对象dog
call()和apply()实现继承
function Pet(words){ this.words = words this.speak = function(){ console.log(this.words) } } function Dog(words){ Pet.call(this,words) //直接把this转化为指向Dog对象,实现了Dog继承了Pet } var dog = new Dog('Wang') dog.speak() //Wang
五、HTTP小爬虫
慕课网Nodejs基础入门课程标题爬虫
var http = require('http') var cheerio = require('cheerio') //将cheerio模块require进来 /*添加cheerio模块,就像jQuery一样操作装载后的html, 先安装该模块,在cmd命令行中输入:npm install cheerio -g */ var url = 'http://www.imooc.com/learn/348' //找到课程页面,只爬单页面 function filterChapters(html){ var $ = cheerio.load(html) //通过cheerio.load()将html内容装载进来 var chapters = $('.chapter') //先拿到每一大章 // 想要得到每一章的内容是一个数组 //[{ // chapterTitle: ' ', // videos: [ // title: ' ', // id: ' ' // ] // }] var courseData = [ ] chapters.each(function(item){ var chapter = $(this) var chapterTitle = chapter.find('strong').text() var videos = chapter.find('.video').children('li') //每一章就是一个对象自变量 var chapterData = { chapterTitle : chapterTitle, videos: [ ] //该videos现在还是一个空数组 } //对每一个videos进行遍历,拿到单个video videos.each(function(item){ var video = $(this).find('.J-media-item') var videoTitle = video.text() var id = video.attr('href').split('/video')[1]//split()方法是将指定字符串按某指定的分隔符进行拆分,拆将会形成一个字符串的数组并返回 chapterData.videos.push({ //将videoTitle和idpush进videos[ ]中 title: videoTitle, id : id }) }) courseData.push(chapterData) //将chapterData数组push进courseData中 }) return courseData //返回回去courseData给filterChapters } function printCourseInfo(courseData){ courseData.forEach(function(item){//因为courseData是一个数组,所以需要遍历该数组后打开 var chapterTitle = item.chapterTitle console.log(chapterTitle+ '\n') //将chapterTitle打印出来 item.videos.forEach(function(video){ console.log(' 【' +video.id +' 】' + video.title +'\n') //遍历videos后将其打印出来 }) }) } http.get(url, function(res){ //第一个参数传入url,第二个参数是回调的方法 var html = ' ' res.on('data', function(data){ //response由data触发的时候,回调data,把html的内容被拼加进来 html += data }) res.on('end', function(){ //数据累加,最后输出 var courseData = filterChapters(html) //将html作为参数传递给filterChapters,让该函数去做数据的过滤 printCourseInfo(courseData) //通过printCourseInfo函数打印 }) }).on('error', function(){ //抛出异常,当出现错误的时候 console.log('获取课程数据出错!') })
最后,通过cmd命令行:node crawlers.js将其打印出来
其中,在安装cheerio模块时出现了错误,原因是没有全局变量安装,使用 nmp install cheerio-g
或,选择配置环境变量解决!
一、Events
1.EventEmitter支持多个事件监听,最大为10,也可以自定义最大数添加监听
var EventEmitter = require('events').EventEmitter;
var instance = new EventEmitter();
instance.on('eventName',function(){});
2.也可以修改最大的监听事件数,但是会造成内存泄漏
//自定义最大数
每个setMaxListeners针对的是一个特定事件,设置最大的num
instance.setMaxListeners(num)
3.事件监听之后,需要emit(发射,发出)才会执行
instance.emit('eventName',arguments)
4.判断事件是否监听
boolean.instance.emit('eventName',arguments) //true or false
5.移除监听事件
- 5.1移除单个监听事件
instance.moveListener('eventName',funcName)//移除事件需要具名函数,匿名函数不可移除
- 5.2移除多个监听事件
instance.removeAllListener()//表示移除所有时间的监听
instance.moveAllListener('eventName')//移除特定的event的所有事件
6.计算事件监听数量
- instance.listeners('eventName').length
- EventEmitter.listenerCount('eventName')
var EventEmitter = require('events').EventEmitter //注意是events! var life = new EventEmitter() //生成实例 life.setMaxListeners(11) function water(which){ console.log('The'+which+'is showing...') } life.on('date', water) //为该实例添加监听 life.on('date', function(which){ console.log('The'+which+'is down...') }) life.on('date', function(which){ console.log('The'+which+'is funny...') }) life.on('date', function(which){ console.log('The'+which+'is cool...') }) life.on('date', function(which){ console.log('The'+which+'is dark...') }) life.on('date', function(which){ console.log('The'+which+'is light...') }) life.on('date', function(which){ console.log('The'+which+'is wonderful...') }) life.on('date', function(which){ console.log('The'+which+'is interesting...') }) life.on('date', function(which){ console.log('The'+which+'is sad...') }) life.on('date', function(which){ console.log('The'+which+'is happy...') }) life.on('date', function(which){ console.log('The'+which+'is boring...') }) /*//判断事件是否有被监听过? var hasFirstListener = life.emit('date','movies') var hasSecondListener = life.emit('date1','dinner') var hasThirdListener = life.emit('date2','shopping') console.log(hasFirstListener) console.log(hasSecondListener) console.log(hasThirdListener)*/ //事件超过十个,出现警告。可设置setMaxListener life.on('date1',function(which){ console.log('The'+which+'dilicious') }) life.on('date1',function(which){ console.log('The'+which+'bad') }) //移除监听事件时,只能移除具名函数 life.removeListener('date',water) //移除所有的监听事件 life.removeAllListeners('date1')//需要传入具体事件名称才不会全部删除导致出错 var hasFirstListener = life.emit('date','movies') var hasSecondListener = life.emit('date1','dinner') //查看监听事件的个数 console.log(life.listeners('date').length) //移除掉一个后只剩10个 console.log(EventEmitter.listenerCount(life,'date'))