Data Mining 入门

最新推荐文章于 2019-07-09 07:08:41 发布

维正

最新推荐文章于 2019-07-09 07:08:41 发布

阅读量1.2k

点赞数

文章标签：数据挖掘入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QiwzDeBLOG/article/details/80694208

版权

一、association 关联规则挖掘

一个事件与另一个事件之间的一来关系。

关联规则算法：Apriori 算法：首先从事件中寻找所有频繁出现的事件子集，然后再这些频繁事件子集中发现可信度比较搞的规则。

二、聚类：聚类就是将数据对象划分成若干个子类，在同一类中的对象具有较高的相似度，而不同类中的对象差异较大。

聚类算法：划分方法、层次聚类方法

k-Means：把n个数据对象划分成k 个类，使每个类中的数据点到该类中心的距离平方和最小

k-Medoids：

和聚集、分裂算法

层次方法：（Hierarchical Method ) 这种方法按照数据分层简历簇，形成一颗以簇为节点的树。如果自底向上进行层次聚集，则称为凝聚（Aggalomerative)的层次聚类；如果按照自定向下进行层次分解，成为裂法（Divisive）的层次聚类。

视觉聚类算法：

聚类的基本原则：相似率、连续率、闭合率、近邻率和对称率。

三、预测

数据挖掘预测是通过对反映了事物输入与输出之间的关联性的学习，得到预测模型，在利用该模型对未来数据进行预测的过程。

典型的机器学习：决策树方法，人工神经网络、支持向量机、正则化方法。

决策树：ID3 、 C4.5 用信息增益比率作为选择标准；合并连续属性的值；可以处理具有缺少属性值的训练样本；运用不同的剪枝技术来避免决策树的过拟合现象；K次交叉验证等。

剪枝：预剪枝：简历规则限制决策树的充分生长。后剪枝：等决策树生长完毕后剪去不具有一般性的叶子或者分支。

人工神经网络：

支持向量机(Support Vector Machines)：

正则化方法：：Lasso 模型、 L1/2正则化模型及其迭代阈值算法。

四、序列和时间序列

数据挖掘工具软件的性能测试报告：http://www.datamininglab.com

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。