数据挖掘的本质

本文是《大数据 互联网大规模数据挖掘与分布式处理》一书中第一章第一小节的学习笔记

数据挖掘(data minning)是数据“模型”的发现过程。

关于模型的定义,可以从统计学、机器学习和算法三个方面进行研究。

统计学

认为数据挖掘就是统计模型(statistical model)的构建过程,这个统计模型指的就是课件数据所遵从的总体分布。

如对一个数据序列进行统计,并假设为其服从高斯分布,通过对该数据序列计算得到的均值和方差就是对该高斯分布序列的完整刻画。


机器学习

通过机器学习进行数据挖掘时这样的:将数据当做训练集来训练某类算法,训练后的模型就是数据挖掘得到的模型。

使用机器学习进行挖掘的前提是研究对象比较复杂,很难用传统的方式对其进行数学建模和分析。

常用的方法有:贝叶斯网络、支持向量机、决策树、隐马尔科夫模型等。


算法

对大部分数据建模方法可以描述为下列两种做法之一:

1.对数据进行简洁的汇总描述;(数据汇总,如google的PageRnk,聚类分析等)

2.从数据中抽取出最突出的特征来代替数据并将剩余内容忽略;(特征抽取,如频繁项集,相似项等)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值