1、WEB爬虫运行时,必须要对网页进行解析,提取出URL,以进行进一步爬取
2、WEB爬虫运行时,要完成源网页的下载工作,连同图像一起。
3、WEB爬虫运行时,要完成对源网页的文本提取工作,以便于建立倒排索引。如果使用开源技术和JAVA构建,可以使用2种提取网页文本信息的方式:
1)正则表达式,自己编写相关正则式
2)HTMLParser,提供了API
1、WEB爬虫运行时,必须要对网页进行解析,提取出URL,以进行进一步爬取
2、WEB爬虫运行时,要完成源网页的下载工作,连同图像一起。
3、WEB爬虫运行时,要完成对源网页的文本提取工作,以便于建立倒排索引。如果使用开源技术和JAVA构建,可以使用2种提取网页文本信息的方式:
1)正则表达式,自己编写相关正则式
2)HTMLParser,提供了API