2018年03月_wzy0623

原创第二本书出版啦！

这是目前唯一一本介绍HAWQ技术的中文书。涵盖HAWQ技术解析、其上的数仓架构及实现、简单数据挖掘三部分，内容较为全面，每部分均有详细配置说明及示例代码。用不打折扣的SQL教据库玩转大数据，无论是学习、开发，还是部署、运行，HAWQ是你的效率之选! 我体验的HAWQ五大特点：依赖少：只需要HDFS一种Hadoop基础服务作为底层存储（相比Kylin）。性能高：比Hiv...

2018-03-27 13:39:59 1566 14

翻译 MADlib——基于SQL的数据挖掘解决方案（30）——模型评估之预测度量

一、预测度量该模块提供了一组度量来评估模型预测的质量。除非另有说明，典型的函数将采用一组“预测”和“观察”值，并使用它们来计算所需的度量。所有功能都支持分组（混淆矩阵除外）。二、预测度量函数平均绝对误差：mean_abs_error(table_in, table_out,prediction_col, observed_col, grouping_cols) 平均绝对百分误差：m...

2018-03-16 11:36:37 1177

原创 MADlib——基于SQL的数据挖掘解决方案（29）——模型评估之交叉验证

验证是评估数据挖掘模型对实际数据执行情况的过程。在将挖掘模型部署到生产环境之前，必须通过了解其质量和特征来对其进行验证，评估模型的准确性、可靠性和可用性。可以使用多种方法评估数据挖掘模型的质量和特征：使用统计信息有效性的各种度量值来确定数据或模型中是否存在问题。将数据划分为定型集和测试集，以测试预测的准确性。请求商业专家查看数据挖掘模型的结果，以确定发现的模式在目标商业方案中是否有...

2018-03-16 11:15:24 1946

原创 MADlib——基于SQL的数据挖掘解决方案（28）——图算法之单源最短路径

图算法指利用特制的线条算图求得答案的一种简便算法。无向图、有向图和网络能运用很多常用的图算法，其中主要包括各种遍历算法（这些遍历类似于树的遍历），寻找最短路径的算法，寻找网络中最低代价路径的算法。这些算法常被用以回答一些与图相关的问题，诸如图是否是连通的，图中两个顶点间的最短路径是什么等等。在数据挖掘领域中，图算法可应用到多种场合，以解决特定问题，如管道优化、路由选择、快递服务、网...

2018-03-15 11:01:28 1396

原创 MADlib——基于SQL的数据挖掘解决方案（27）——关联规则之Apriori算法

数据仓库或数据挖掘从业者一定对“啤酒与尿布”的故事不会陌生。这就是一个使用关联规则的经典案例。根据对超市顾客购买行为的数据挖掘发现，男顾客经常一起购买啤酒和尿布，于是经理决定将啤酒与尿布放置在一起，让顾客很容易在货架上看到，从而使销售额大幅度增长。关联规则挖掘在多个领域得到了广泛应用，包括互联网数据分析、生物工程、电信和保险业的错误校验等。本篇将介绍关联规则方法、Apriori算法...

2018-03-14 10:42:17 2757

原创 MADlib——基于SQL的数据挖掘解决方案（26）——聚类之k-means方法

“物以类聚，人以群分”，其核心思想就是聚类。所谓聚类，就是将相似的事物聚集在一起，而将不相似的事物划分到不同的类别的过程，是数据分析中十分重要的一种手段。比如古典生物学中，人们通过物种的形貌特征将其分门别类，可以说就是一种朴素的人工聚类。如此，我们就可以将世界上纷繁复杂的信息，简化为少数方便人们理解的类别，因此聚类可以说是人类认知这个世界的最基本方式之一。通过聚类，人们能意识到密集...

2018-03-13 12:36:44 4203 1

原创 MADlib——基于SQL的数据挖掘解决方案（25）——分类之随机森林

一、随机森林简介1. 装袋装袋（bagging）又称自助聚集（bootstrap aggregating），是一种根据均匀概率分布从数据集中重复抽样（有放回的）的技术。每个自助样本集都和原始数据集一样大。由于抽过程是有回放的，因此一些样本可能在同一训练数据集总出现多次，而其它一些却可能被忽略。一般来说，自助样本大约包含63%的原训练数据，因为每一样本抽样到的概率为，如果N...

2018-03-12 18:14:48 2173

原创 MADlib——基于SQL的数据挖掘解决方案（24）——分类之决策树

一、决策树简介1. 决策树的基本概念决策树（Decision Tree）又称为分类树（Classification Tree），是最为广泛的归纳推理算法之一，处理类别型或连续型变量的分类预测问题，可以用图形和if-then的规则表示模型，可读性较高。决策树模型通过不断地划分数据，使因变量的差别最大，最终目的是将数据分类到不同的组织或不同的分枝，在因变量的值上建立最强的归类。 ...

2018-03-10 09:26:18 4480

原创 MADlib——基于SQL的数据挖掘解决方案（23）——分类之SVM

一、SVM简介 SVM法即支持向量机（Support Vector Machine，SVM）法，由Vapnik等人于1995年提出，具有相对优良的性能指标。该方法是建立在统计学理论基础上的机器学习方法。通过学习算法，SVM可以自动寻找那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来...

2018-03-08 10:52:11 4442 2

原创 MADlib——基于SQL的数据挖掘解决方案（22）——分类之朴素贝叶斯

一、贝叶斯分类简介1. 贝叶斯分类原理贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。贝叶斯分类是一种利用概率统计知识进行分类的算法，其分类原理是贝叶斯定理。贝叶斯定理是由18世纪概率论和决策论的早期研究者Thomas Bayes发明的，故用其名字命名为贝叶斯定理。贝叶斯定理（Bayes’theorem）是概率论中的一个结果，它与...

2018-03-06 14:49:24 2119 1

原创 MADlib——基于SQL的数据挖掘解决方案（21）——分类之KNN

一、分类方法概要 1. 分类的概念数据挖掘中分类的目的是学会一个分类函数或分类模型，该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下：输入数据，或称训练集（Training Set），是由一条条数据库记录（Record）组成的。每一条记录包含若干个属性（Attribute），组成一个特征向量。训练集的每条记录还有一个特定的类标签（Class Label）与之对应...

2018-03-05 11:06:26 4462

wzy0623的专栏