在c#语言环境下搭建搜索引擎服务进行测试,使用了Lucene.Net
1、合适的筛选
对网上流行的网页正则进行修改,现使用正则如下
"(href|navigateurl)=(?:\""|\')[^\s]*(?:.asp|.htm)(?:\S{0,})(?:\""|\')"
2、进程池的使用
有效的提高的效率
ThreadPool.QueueUserWorkItem(new WaitCallback(具体方法), lt);
3、提交索引
因为IndexWriter在我测试的版本独占的
所以采用的办法类似打印机等设备的使用
判断是否可用,如果可用,批量提交。
同时对ThreadPool内记录进行限制,保证网页搜索使用的线程不至于过多。