HAWQ + MADlib 玩转数据挖掘之(九)——回归方法之Logistic回归

一、回归方法简介        回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者叫做因变量,后者叫做自变量。        事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也叫函数关系,其特征是一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精...
阅读(18) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means

一、聚类方法简介        所谓“物以类聚,人以群分”,其核心思想就是聚类。通过聚类,人们能意识到密集和稀疏的区域,发现全局的分布模式,以及数据属性之间有趣的相互关系。        在实践中,聚类往往为分类服务,即先通过聚类来判断事务的合适类别,然后再利用分类技术对新的样本进行分类。分类与聚类的区别是:分类是事先定义好类别,类别数不变,分类需要由人工标注训练得到,属于监督学习范畴。聚类则没有...
阅读(48) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(七)——关联规则方法之Apriori算法

一、关联规则简介        关联规则挖掘的目标是发现数据项集之间的关联关系,是数据挖据中一个重要的课题。关联规则最初是针对购物篮分析(Market Basket Analysis)问题提出的。假设超市经理想更多地了解顾客的购物习惯,特别是想知道,哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客购买记录进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,...
阅读(58) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(六)——主成分分析与主成分投影

一、主成分分析(Principal Component Analysis,PCA)简介        在数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低...
阅读(109) 评论(0)
    个人资料
    • 访问:1297433次
    • 积分:17326
    • 等级:
    • 排名:第553名
    • 原创:253篇
    • 转载:20篇
    • 译文:5篇
    • 评论:155条
    博客专栏
    文章分类
    最新评论