微软FAST提供搜索引擎的应用方案,将不同来源的所有信息内容整合在一起并以易用的形式再现给用户,为用户提供高度相关的搜索结果和个性化的搜索体验。微软 FAST致力于为每个接入终端(PC、手机等)都提供最好的用户体验。从功能上描述,主要实现以下功能:
Ø 信息采集和索引:从多种资源获取信息内容,包括数据库,文本文件和现有的网站,并对所有内容建立索引。
Ø 信息加工处理:提供语言学和其他文本分析工具,这些工具不仅能分析数据库数据还能分析现有的网页信息,并将信息以易用的形式再现给用户。
Ø 个性化搜索及推荐:提供先进的搜索方式,可以帮助终端用户简单准确直观的获取内容和信息。
Ø 管理和统计:提供丰富的基于Web的管理界面,用于创建、配置和管理搜索集合,监测和控制系统的组成部分。系统对用户的搜索行为作详细和全面的日志记录,以日志文件的形式存在,也可以将日志信息转存到数据库作进一步分析使用,便于进行全面的业务统计。
编号 | 类别 | 功能点 | 功能描述 |
1 | 搜索 | 上下文相关搜索
| 在非结构内容中的上下文搜索 |
动态XML索引 | |||
自然语言查询 | |||
支持分等级的文档结构(范围搜索) | |||
按地理范围搜索排序 | |||
结果高亮显示
| 上下文的高亮显示 | ||
结果高亮显示配置 | |||
源文件中的高亮显示 | |||
PDF格式的高亮显示 | |||
结果高亮显示支持可配置的字符校正 | |||
索引管理
| 存档索引路径和调度 | ||
跨列排名 | |||
导航
| 支持潜导航 | ||
支持无源导航 | |||
上下文导航(作用域范围内的浅导航) | |||
分等级(分类)导航条 | |||
即时的导航黑名单 | |||
匹配术语导航(通配符浏览) | |||
每个查询导航条的配置 | |||
数字导航条的集合统计 | |||
操作
| 相近操作 | ||
计数操作 | |||
高性能的排名操作 | |||
无索引的词组匹配 | |||
词组查询能够包含OR表达式 | |||
支持通配符(*) | |||
通配符支持短语 | |||
通配符最小/最大字符扩展 | |||
查询语言 | 查询语言支持 | ||
排名和排序
| 支持全文排序 | ||
搜索范围内的内容推进 | |||
通过排名配置文件控制静态排名 | |||
随机排名/排序 | |||
跨多个综合领域的搜索 | |||
结果
| 高级聚类支持 | ||
无关结果的字段折叠 | |||
返回匹配范围 | |||
搜索特征 | 字串检索 | ||
2 | 语言学处理 | 相似搜索
| 相似发音的检索 |
相似发音的中文检索 | |||
实体抽取
| 上下文实体抽取 | ||
语言实体提取器 | |||
相关提取 | |||
名称短语提取 | |||
语言支持
| 分词 | ||
去除无用词 | |||
语言拼写检查 | |||
归类 | |||
语言检测 | |||
查询中的语言检测 | |||
多种语言检索 | |||
多语言
| 查询扩展归类 | ||
多语言环境下通过缩小来归类 | |||
归类 | 短语归类 | ||
语言标准化
| 字段范围的敏感词搜索 | ||
字段范围的区分大小写搜索 | |||
字符校正 | |||
字符校正支持多字节串 | |||
可配置分词标准 | |||
分词在每个域单独配置 | |||
分词的每次查询中单独控制 | |||
自然语言 | 去除无用词的查询次数控制 | ||
同义词
| 查询端的同义词 | ||
单个到多个词的同义词 | |||
同义词和拼写变化 | |||
同义词建议 | |||
短语中的同义词 | |||
3 | 内容处理 | 分类
| 分类器 |
基于规则的分类器 | |||
相似搜索改进(也适用于非监督聚类) | |||
范围内的相似搜索 | |||
内容路径
| 搜集路径设置 | ||
可配置的内容路径 | |||
爬虫
| 自适应抓取 | ||
爬虫迁移支持 | |||
爬虫统计 | |||
JavaScript支持 | |||
爬虫的相似重复检测 | |||
支持Macromedia Flash | |||
网站地图支持 | |||
数据类型 | 支持无符号整数 | ||
文件变换
| 嵌入微软Office文档的HTML文件 | ||
新文件格式 | |||
文档处理流水线 | 语义文件处理流水线 | ||
文件抓取器
| 基于用户图形界面的文件抓取器配置 | ||
文件抓取器访问控制列表支持 | |||
页面链接分析 | 页面分析工具 | ||
XML支持 | XSLT支持 | ||
4 | 系统管理 | 连接器 | 连接器的图形用户界面支持 |
安装 | 利用SAN / NAS分享索引 | ||
监控 | 系统监控 | ||
5 | 业务管理 | 主页 | 通过搜索网站,中心网站指向其他页面 |
语言学管理 | 语言学管理 | ||
查询报告
| 可操作查询报告 | ||
浏览记录报告 | |||
电子邮件报告 | |||
导出查询报告 | |||
管理查询 | |||
查询趋势分析 | |||
搜索文件级查询报告 | |||
监视列表 | |||
查询报告框架
| 查询报告框架 | ||
查询报告/导出用户界面 | |||
搜索管理 | 收集等级报告 | ||
搜索配置文件管理 | 搜索配置文件 | ||
搜索相关度 | 查询语言中的排名推进支持 | ||
搜索相关度/推进和过滤
| 文档推进 | ||
查询推进/过滤 | |||
同义词 | 同义词支持管理查询 | ||
用户管理 | 能够创建用户,组以及管理员 | ||
6 | 集成 | 应用SDK | 应用SDK框架 |
内容SDK
| 内容API | ||
内容API接口支持多种ESP装置 | |||
提供内容连接工具包 | |||
文件抓取器插件程序支持 | |||
核心SDK | 分词插件程序API | ||
实体抽取
| 实体抽取的基本定制 | ||
实体抽取匹配器 | |||
搜索SDK
| 可选查询翻译 | ||
以文档为输入查找相似文档 | |||
API在支持负载均衡 | |||
API支持搜索配置文件 | |||
系统管理
| 管理API | ||
命令行管理客户端 | |||
7 | 安全 | 安全
| 在搜索前端进行验证 |
IP地址安全 | |||
可部署SAM | |||
8 | 系统特性 | 容错
| 支持代理(跨数据中心的容错) |
容错系统 | |||
索引容错 | |||
多查询/索引子系统 | |||
系统特性
| 减小索引大小支持短语 | ||
NAS索引支持 | |||
字段范围内的数字范围截断 | |||
通配符截断 | |||
通配符搜索改进 | |||
平台支持
| 多操作系统支持 | ||
服务器群集支持 | |||
64位操作系统支持 | |||
查询性能 | 大型过滤表达式 | ||
架构 | 能够实现导航条和浅模式下全文字段排序 | ||
| 索引配置文件架构的灵活性 | ||
9 | 兼容性 | 连接器 | 多种连接器 |