建模技术与统计分析

建模技术
建模方法基于使用的使用,即解决特定问题的指示信息顺序。使用特定的算法可创建这种类型的模型。有三种主要的建模技术类别,IBM® SPSS® Modeler 为每种类别提供了一些示例:

分类
关联
细分(有时称为“聚类”)
分类模型使用一个或多个输入字段的值来预测一个或多个输出(或目标)字段的值。这些技术的一些示例包括:决策树(C&R 树、QUEST、CHAID 和 C5.0 算法)、回归(线性、logistic、广义线性和 Cox 回归算法)、神经网络、支持向量机和贝叶斯网络。

关联模型查找您数据中的模式,其中一个或多个实体(如事件、购买或属性)与一个或多个其他实体相关联。这些模型构建定义这些关系的规则集。数据中的字段可以作为输入和目标。您可以手动查找这些关联,但关联规则算法可以更快速地完成,并能探索更多复杂的模式。Apriori 和 Carma 模型是使用此类算法的示例。另一种类型的关联模型是序列检测模型,后者可以在按时间建立结构的数据中查找顺序模式。

细分模型将数据划分为具有类似输入字段模式的记录段或聚类。细分模型只对输入字段感兴趣,没有输出或目标字段的概念。细分模型的示例为 Kohonen 网络、K-Means 聚类、二阶聚类和异常检测等。

 

 

算法 概括 优缺点
k-means 每次从类中求均值作为中心点
用到了EM的思想
目标是最小化sum of squared error
要求预设k值
易受噪音和离异点的影响 
对不规则形状的类聚类效果不好
不保证全局最优
k-means++ 目标是找到k个合理的初始种子点给k-means。
1. 随机挑个随机点当“种子点”
2. 对于每个点,计算其和最近的“种子点”的距离D(x)并保存,然后把这些距离加起来得到Sum(D(x))。
3. 再取一个随机值,用权重的方式来取计算下一个“种子点”。这个算法的实现是,先取一个能落在Sum(D(x))中的随机值Random,然后用Random -= D(x),直到其<=0,此时的点就是下一个“种子点”。
4. 重复2和3直到k个中心被选出来
5. 利用这k个初始的聚类中心来运行标准的k-means算法
k-modes K-Means算法的扩展
对于分类型数据,用mode求中心点
k-prototypes 结合了k-means和k-modes
k-medoids 每次从类中找一个具体的点来做中心点。目标是最小化absolute error。
PAM是一种典型的k-medoids实现。
对噪音和离异点不那么敏感
然而计算量大很多
CLARA 先抽样,再用PAM 对于大数据比PAM好点
主要是看sample的效果
CLARANS 每次随机的抓一个medoid跟一般点,然后判断,这两者如果替换的话,能不能减小absolute-error 融合了PAM和CLARA两者的优点,是第一个用于空间数据库的聚类算法

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值