- 博客(0)
- 资源 (2)
- 收藏
- 关注
网啦搜索引擎系统v1.0
网啦搜索引擎系统由四个子系统构成,分别是:网页抓取子系统、数据搬运子系统、WEB搜索子系统、数据库引擎。
• 网页抓取子系统:英文名Spider,用于抓取互联网上的网页,编码并存放到本地磁盘缓冲中。本子系统运行在多线程模式下,根据服务器性能,一次可以开启多达2000个线程(默认推荐10个),一个线程执行一个单独的抓取任务,多个线程就相当于多个抓取任务同时运行,大大提高抓取网页的效率。
• 数据搬运子系统:英文名Carrier,把本地磁盘缓冲中存放的网页一次性加入到数据库中。本子系统通过BCP把所有网页批量存入数据库,根据实际测试,其执行效率是数据库插入操作的十倍,大大节省操作时间,并且大大降低数据库负荷。
• WEB搜索子系统:英文名WEB Search Engine,用于全文检索数据库中的数据,检索速度快,数据库负荷小,支持多用户并发检索。
• 数据库引擎:本部分由一个Sql Server 2008数据库系统
2009-09-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人