前文提到,nodejs可以做很多东西。但是,我一直觉得,nodejs是不合适去写网站的,至少现在不合适。所以,在这里我介绍怎么用nodejs去做一个简单的爬虫。
(想了解nodejs怎么写网站的话,你可以点这里:
https://github.com/nswbmw/N-blog/wiki/_pages)
接下来我要实现的爬虫的功能:访问一个url,然后获取里面需要的信息。
准备条件:安装好nodejs的环境,(建议在linux上学习,因为windows上面,很多第三方库都不支持,常常安装失败。)
预备知识:用nodejs写过helloworld的demo。
(我的笔记本常常出问题,所以现在我的教程只能基于windows的环境 &&nodejs.version = v.0.10.10 , 不过代码在linux下一样照样可以正常运行)
第一步:按照 Infoq上面的田永强叔叔的建议,我习惯采用如下的目录结构,所以,大家新建一个这样的目录结构: