- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 MADlib——基于SQL的数据挖掘解决方案(5)——数据转换之邻近度
MADlib的线性代数模块(linalg module)包括基本线性代数操作的实用函数,其中包括多种范式、距离、相似度、向量均值、矩阵聚合等函数。本篇先从讨论相似性和相异性的基本概念,然后对照概念说明MADlib的线性代数函数,并用简单示例描述这些函数的用法。一、邻近度的度量 相似性要和相异性是重要的概念,因为它们被许多数据挖掘技术所使用,如聚类、最邻近分类和异常检测等。在许多情况下
2017-12-29 18:45:57 1937
原创 MADlib——基于SQL的数据挖掘解决方案(4)——数据类型之矩阵
矩阵可以用来表示数据集,描述数据集上的变换,是MADlib中数据的基本格式,通常使用二维数组数据类型存储。MADlib中的向量是一维数组,可看作是矩阵的一种特殊形式。MADlib的矩阵运算模块(matrix_ops)实现SQL中的矩阵操作。本篇介绍矩阵的概念,说明MADlib矩阵运算相关函数,并举出一些简单的函数调用示例。 一、矩阵定义 矩阵(matrix)是把数集合汇聚成行和列的一
2017-12-26 17:31:25 1942
原创 MADlib——基于SQL的数据挖掘解决方案(3)——数据类型之向量
通常数据挖掘操作的数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征(如物体质量或事件发生的时间)的属性描述。属性有时也叫做变量、特性、字段、特征或维。而在数学上,向量和矩阵可以用来表示数据对象及其属性。 和其它数据挖掘语言或工具一样,MADlib操作的基本对象也是向量与矩阵。对向量和矩阵的操作是通过一系
2017-12-22 15:56:56 2147
原创 MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础
一、MADlib简介 MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据进行分析和挖掘。用户可以非常方便地将MADlib加载到数据库中,扩展数据库的分析功能。2015年7月MADlib成为Apache软件基金会的孵化器项目,经过两年的发展,于2017年8月毕业成为Apach
2017-12-19 17:22:04 12505 1
原创 MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门
一、什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息的过程。这些信息的表现形式为规则、概念、规律及模式等。 从上述定义可见数据挖掘明显有别于传统数据处理技术(如事务处理,OLTP)。首先数据挖掘面对的是大量的不完全的数据
2017-12-19 11:09:30 19940
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人