数据挖掘的本质

最新推荐文章于 2021-10-10 15:57:54 发布

frontend922

最新推荐文章于 2021-10-10 15:57:54 发布

阅读量1.4k

点赞数

分类专栏：学习笔记文章标签：数据挖掘机器学习统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/frontend922/article/details/10875461

版权

学习笔记专栏收录该内容

107 篇文章 3 订阅

订阅专栏

本文是《大数据互联网大规模数据挖掘与分布式处理》一书中第一章第一小节的学习笔记

数据挖掘(data minning)是数据“模型”的发现过程。

关于模型的定义，可以从统计学、机器学习和算法三个方面进行研究。

统计学

认为数据挖掘就是统计模型(statistical model)的构建过程，这个统计模型指的就是课件数据所遵从的总体分布。

如对一个数据序列进行统计，并假设为其服从高斯分布，通过对该数据序列计算得到的均值和方差就是对该高斯分布序列的完整刻画。

机器学习

通过机器学习进行数据挖掘时这样的：将数据当做训练集来训练某类算法，训练后的模型就是数据挖掘得到的模型。

使用机器学习进行挖掘的前提是研究对象比较复杂，很难用传统的方式对其进行数学建模和分析。

常用的方法有：贝叶斯网络、支持向量机、决策树、隐马尔科夫模型等。

算法

对大部分数据建模方法可以描述为下列两种做法之一：

1.对数据进行简洁的汇总描述；（数据汇总，如google的PageRnk，聚类分析等）

2.从数据中抽取出最突出的特征来代替数据并将剩余内容忽略；（特征抽取，如频繁项集，相似项等）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。