迅龙的数据库反向还原算法 结构
迅龙的信息抽取算法 通过小规模采样的机器学习方法来处理半结构化的Web数据
主要有5个部分
1 采样: 得到可能有来源于一个动态页面程序的一个URL队列
2 自动分析: 得到采样队列对应的数据队列 得到一个原始模板
3 自动标注: 根据采样结果和原始模板 标注得到一个滤波模板
4 手工标注: 手工修正自动生成的结果
5 自适应过滤: 对于不同的页面数据 自动适应不同的过滤模板 最坏的情况是使用内置的默认信息抽取
迅龙中文搜索 0.7 nSearch版
源代码 2007.2.27日发布
下载 http://gforge.osdn.net.cn/projects/xunlong/
以发展中国的开源软件事业为己任
促进中文搜索技术的交流与合作!
宁夏大学 张冬http://zd4004.blog.163.com/
2007.3.4