全文搜索算法
全文搜索算法是最重要的集体智慧算法之一。工作原理是通过搜索软件到因特网上的各网站收集信息,找到一个网站后可以从这个网站链接到另一个网站,像蜘蛛爬行一样。然后按照一定的规则建立一个很大的在线数据库供用户查询。用户在查询时只要输入关键词,就从已经建立的索引数据库上进行查询。目前,最著名的全文搜索算法应用是google的PageRank算法。PageRank算法是把整个互联网当作了一个整体对待,检查整个网络链接的结构,并确定哪些网页重要性最高。
贝叶斯分类器
贝叶斯分类器是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,就是该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。换句话说,贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。
说明:贝叶斯网络是一个带有概率注释的有向无环图,在图中的每一个结点都表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的,互不相关。网络中任意一个结点X 均有一个相应的条件概率表(Conditional Probability Table,CPT),用以表示结点X 在其父结点取各可能值时的条件概率。若结点X 无父结点,则X 的CPT 就是先验概率分布。贝叶斯网络的结构及各结点的CPT 定义了网络中各变量的概率分布。
优化技术
优化算法的背景是受多种变量的影响,存在许多可能解的问题,以及结果因这些变量的组合而产生很大变化的问题,但又不能一个一个解这样的求解出。优化算法是通过尝试许多不同题解并给出这些题解打分以确定其质量的方式来找到一个问题的最优解的。优化算法最简单也是最低效的求解方法,一般是求解出N个可行解,并从中找出最佳解来。而优化方法则是以一种对题解可能有改进的方式来对其进行智能化地修正。优化算法就是智能化尝试许多不同题解并给这些题解赋权值以确定其质量的方式来找到一个问题的最优解。主要算法有随机搜索、爬山法等经典方法,也有模拟退火、遗传算法等智能算法。