在下不是什么牛人,看大家对数据挖掘很感兴趣,自己也做这个方向的给大家介绍介绍。写的不对的地方求改正。真真要做数据挖掘还是要有良好的统计背景,概率论和数理统计,泛函,实变函数,测度论等。如果你这些都懂了的话那么水平应该很高了。我在这里这写点自己的感受吧。当做科普。
数据挖掘解决的主要问题就是分类,聚类,回归,关联分析等问题。搜索中的分词,专名识别等都是用crf模型来做的。数据挖掘广泛的运用在各个方面。尤其是在一些搜索公司和电商公司中(做个性化推荐等)。
我觉的学一个东西什么要有构架,可以整体理解这个东西。不然学习起来很困难。我这篇博客主要讲分类。分类问题可以分成多分类和2分类。多分类可以用2分类的算法来做。所以只讲2分类。分类模型有很多很多种,比如logistic回归,支持向量机,朴素贝叶斯等等一大堆,如果具体的来讲算法就很麻烦。主要做个概括性的介绍,主要来自the elements of statistic learning 这本书的第2章中的一部分。
首先概括的讲分类问题吧,统计学习模型可以分成3个部分,模型,策略,算法。
模型用来描述问题,可以是概率模型或者非概率模型,最终都是一个函数(要寻找一个这样的函数,能够准确描述这个问题,但是函数种类无穷多,比如线性的,2次的,log函数,指数等等不计其数,我怎么知道什么函数最好,这个时候模型就会假设这个函数这能是某种类型的,比如模型假设是线性的,那么我们只要在线性函数空间中去寻找结果接可以了)。
策略是指学习的准则,是经验风险最小化(容易导致过拟合,解决方法有交叉检验cv和regulation),还是结构风险最小化(svm这种属于结构风险最小化,vapnik的书统计学习理论的本质中讲了这个,不过要看懂这本书,需要有泛函的一些内容,我自己数学基础不够看不太懂,希望以后能看懂这个东西)。
算法就是如何能够在某种准则下,求出模型的参数。最常见的有梯度下降,牛顿法,EM算法,前向分布算法等。
这样的话就能够得出一个具体的预测函数,通过预测函数来预测问题的类别了。今天就写这些,有机会在多写一点。介绍几本书,如果能读懂的话水平应该不错。
the elements of statistic learning 这本书读懂了就牛逼了。其他可以看看数据挖掘导论,data mining conceptsand techniques 。