网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
相信很多人都用JAVA或者C++写过网络爬虫,但是都存在代码过于复杂、爬虫难以维护的问题。也有很多人使用脚本语言编写过网络爬虫,但是这些脚本很多时候不妨变嵌入大型的系统,或者语法怪异,难以上手。
我们教程中选择了一门适合中小型工程的爬虫脚本语言作为爬虫的编写语言:CrawlScript。这门脚本语言底层是用JAVA实现的,可以很方便地被其他JAVA程序调用。之所以选择这门语言,还有一个重要的原因,CrawlScript脚本遵循javascript的规范,只要学过javascript的人,可以在几分钟内轻松上手。不多做介绍了,开始详细的教程。
下载 CrawlScript
首先,下载CrawlScript的jar包:CrawlScript beta 0.3版及demo下载。
下载完成后,解压。找到CrawlScript-bin文件夹。
下面我们来介绍如果编写和运行CrawlScript。
运行 CrawlScript Shell
CrawlScript Shell是编写和运行CrawlScript最常用的方式之一,运行方式如下:
1.用命令行进入工程里的CrawlScript-bin文件夹.
2.在命令行输入java -jar crawlscript.jar即可进入crawlscript的shell.
3.开始编写CrawlScript脚本,回车运行.
例如:
1)输入doc=$("http://www.baidu.com") ,回车,可看到百度首页的所有文字。
2)继续输入doc.a() ,回车,即可看到百度首页的所有超链接中的文字.
3)继续输入write("log.txt",doc.a()); ,回车,查看CrawlScript-bin文件夹,可发现生成了log.txt文件,里面是百度首页所有超链接的文本信息.
运行CrawlScript脚本文件
运行CrawlScript脚本文件有两种方式:
1.运行CrawlScript Shell,输入命令load(文件路径).
例如:在CrawlScript-bin文件夹下有一个demo.js,进入CrawlScript Shell后,输入load("demo.js")即可运行demo.js这个脚本。
2.在CrawlScript-bin目录下,运行命令: java -jar crawlscript.jar 文件路径.
例如:在CrawlScript-bin文件夹下有一个demo.js,用命令行进入CrawlScript-bin目录,运行命令:java -jar crawlscript.jar demo.js
注:demo.js是一个完整的爬虫,可以爬取新华网所有的新闻正文(放到CrawlScript-bin/download文件夹中),由于爬虫初始化,启动需要1分钟.
下一课,我们介绍CrawlScript的编写语法。