关于数据挖掘方面的机器学习——初步简介:
1.信息检索模型
(1)布尔检索模型
布尔模型是历史上首个被提出并且得到成功应用的检索模型,即使在目前仍然被广泛的用于各种查询系统中,它根据若干个查询分量的逻辑表达式的组合来进行检索,每个查询分量或者出现,或者不出现在查询对象中,对应查询分量的权值就相应的为1或0,最后返回使得所有逻辑组合最后结果为“真”的对象集合。由于实际上计算的是逻辑条件表达式的真伪,因此在实际查询前系统都需要对用户输入的查询条件进行逻辑转换,然后才能在整个文档集合中进行操作。
(2)向量空间模型
向量空间检索模型是由康奈尔大学的Salton等人于上世纪六七十年代提出的另一种广泛使用的信息检索模型,在该模型中不论是具体的查询条件还是目标文档都用由关键字组成的特征向量来表示,向量之间的相似度代表着查询与文档之间的相关程度,模型通过相似度大小产生检索结果和对结果进行排序。
(3)概率检索模型
概率检索模型是Roberson等人于1976年提出的经典模型,该模型建立在概率理论的基础上,其思想是通过统计每个查询分量在相关目标对象中出现的概率来表示它们之间的相关程度,从而建立起一个目标对象与查询之间的概率模型。
(4)统计语言检索模型
统计语言模型是用数学知识来表示自然语言的一种模型,它主要用于描述自然语言在统计和结构方面的规律,通过建立的概率模型来对词序列进行预测,使得该序列的正确概率最大化。早在20世纪初,Andrei Markov就将统计语言模型应用到了俄国文献的字母序列建模中,然而直到上世纪末该模型才被应用到IR领域,如今具有代表性的有文档语言模型、查询语言模型等。
2.排序学习模型
排序学习是运用各种机器学习方法来解决排序问题的一种技术,从