HAWQ + MADlib 玩转数据挖掘之(十二)——模型评估之交叉验证

一、交叉验证概述        机器学习技术在应用之前使用“训练+检验”的模式,通常被称作“交叉验证”,如图1所示。图11. 预测模型的稳定性        让我们通过以下几幅图来理解这个问题:图2        此处我们试图找到尺寸(size)和价格(price)的关系。三个模型各自做了如下工作:第一个模型使用了线性等式。对于训练用的数据点,此模型有很大误差。这样的模型在初期排行榜和最终排行榜都...
阅读(515) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树

一、分类方法简介1. 分类的概念        数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据,或称训练集(Training Set),是由一条条数据库记录(Record)组成的。每一条记录包含若干个属性(Attribute),组成一个特征向量。训练集的每条记录还有一个特定的类标签(Class L...
阅读(301) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(十)——图算法之单源最短路径

一、图算法简介1. 定义        在计算中,常将运算方程或实验结果绘制成由若干有标尺的线条所组成的图,称为“算图”。计算时根据已知条件,从有关线段上一点开始,连结相关线段上的点,连线与表示所求量线段的交点即为答案。        无向图、有向图和网络能运用很多常用的图算法。这些算法包括:各种遍历算法(这些遍历类似于树的遍历),寻找最短路径的算法,寻找网络中最低代价路径的算法,用于回答一些简单...
阅读(271) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(九)——回归方法之Logistic回归

一、回归方法简介        回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者叫做因变量,后者叫做自变量。        事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也叫函数关系,其特征是一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精...
阅读(258) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means

一、聚类方法简介        所谓“物以类聚,人以群分”,其核心思想就是聚类。通过聚类,人们能意识到密集和稀疏的区域,发现全局的分布模式,以及数据属性之间有趣的相互关系。        在实践中,聚类往往为分类服务,即先通过聚类来判断事务的合适类别,然后再利用分类技术对新的样本进行分类。分类与聚类的区别是:分类是事先定义好类别,类别数不变,分类需要由人工标注训练得到,属于监督学习范畴。聚类则没有...
阅读(278) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(七)——关联规则方法之Apriori算法

一、关联规则简介        关联规则挖掘的目标是发现数据项集之间的关联关系,是数据挖据中一个重要的课题。关联规则最初是针对购物篮分析(Market Basket Analysis)问题提出的。假设超市经理想更多地了解顾客的购物习惯,特别是想知道,哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客购买记录进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,...
阅读(256) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(六)——主成分分析与主成分投影

一、主成分分析(Principal Component Analysis,PCA)简介        在数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低...
阅读(409) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(五)——奇异值分解实现推荐算法

一、奇异值分解简介        奇异值分解简称SVD(singular value decomposition),可以理解为:将一个比较复杂的矩阵用更小更简单的三个子矩阵的相乘来表示,这三个小矩阵描述了大矩阵重要的特性。SVD的用处有很多,比如:LSA(隐性语义分析)、推荐系统、数据降维、信号处理与统计等。        任何矩阵都可以使用SVD进行分解,对于一个MxN(M>=N)的矩阵M,存在...
阅读(2427) 评论(3)

HAWQ + MADlib 玩转数据挖掘之(四)——低秩矩阵分解实现推荐算法

一、潜在因子(Latent Factor)推荐算法        本算法整理自知乎上的回答@nick lee。应用领域:“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。        这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中,在实际应用中比现在排名第一的 @邰原朗所介绍的算法误差(RMSE)会小不少,效率更高。...
阅读(682) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(三)——向量

一、定义        这里不讨论向量严格的数学定义。在Madlib中,可以把向量简单理解为矩阵。矩阵是Madlib中数据的基本格式,当矩阵只有一维时,就是向量,1行n列的矩阵称为行向量,m行1列的矩阵称为列向量,1行1列的矩阵称为标量。二、线性代数函数        Madlib的线性代数模块(linalg module)包括基本的线性代数操作的实用函数。利用线性代数函数可以很方便地实现新算法。...
阅读(403) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(二)——矩阵

矩阵是Madlib中数据的基本格式,通常是二维的。在Madlib中,数组的概念与向量类似,数组通常是一维的,是矩阵的一种特殊形式。一、矩阵表示        MADlib为矩阵提供了两种表示形式:稠密和稀疏。1. 稠密        矩阵被表示为一维数组的分布式集合,例如3x10的矩阵如下表: row_id | row_vec --------+------------------...
阅读(400) 评论(0)

HAWQ + MADlib 玩转数据挖掘之(一)——安装

一、MADlib简介        MADlib是Pivotal公司与伯克利大学合作的一个开源机器学习库,提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.11,可以用在Greenplum、Pos...
阅读(2436) 评论(2)

利用Flume将MySQL表数据准实时抽取到HDFS

一、为什么要用到Flume        在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使用MapReduce读写数据,而MapReduce是为了批处理场景设计的,目标是大吞吐量,并不太关心低延时问题。就像实验中所做的,每天定...
阅读(3254) 评论(4)

HAWQ中的行列转置

行列转置是ETL或报表系统中的常见需求,HAWQ提供的内建函数和过程语言编程功能,使行列转置操作的实现变得更为简单。...
阅读(650) 评论(0)

洪荒之力已无,追求之心尚在

一、致谢        我的第一本习作《Hadoop构建数据仓库实践》出版了。感谢CSDN博客提供的技术学习平台,能让我把自己平时积累的技术心得加以总结,形成一篇篇博文与人分享。正因如此才有了将博文整理成书的机会。二、写书动因        技术的发展实在太快了。就拿数据仓库来说,从Bill Inmon在1991年提出数据仓库的概念至今已有将近三十年的时间。在这期间人们所面对的数据,以及处理数据的...
阅读(4202) 评论(14)
281条 共19页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1386230次
    • 积分:18207
    • 等级:
    • 排名:第533名
    • 原创:256篇
    • 转载:20篇
    • 译文:5篇
    • 评论:168条
    博客专栏
    文章分类
    最新评论