本文是《大数据 互联网大规模数据挖掘与分布式处理》一书中第一章第一小节的学习笔记
数据挖掘(data minning)是数据“模型”的发现过程。
关于模型的定义,可以从统计学、机器学习和算法三个方面进行研究。
统计学
认为数据挖掘就是统计模型(statistical model)的构建过程,这个统计模型指的就是课件数据所遵从的总体分布。
如对一个数据序列进行统计,并假设为其服从高斯分布,通过对该数据序列计算得到的均值和方差就是对该高斯分布序列的完整刻画。
机器学习
通过机器学习进行数据挖掘时这样的:将数据当做训练集来训练某类算法,训练后的模型就是数据挖掘得到的模型。
使用机器学习进行挖掘的前提是研究对象比较复杂,很难用传统的方式对其进行数学建模和分析。
常用的方法有:贝叶斯网络、支持向量机、决策树、隐马尔科夫模型等。
算法
对大部分数据建模方法可以描述为下列两种做法之一:
1.对数据进行简洁的汇总描述;(数据汇总,如google的PageRnk,聚类分析等)
2.从数据中抽取出最突出的特征来代替数据并将剩余内容忽略;(特征抽取,如频繁项集,相似项等)