专注于数据挖掘算法研究和应用

CVTE中央研究院数据挖掘算法团队

离线轻量级大数据平台Spark之MLib机器学习协同过滤ALS实例

1、协同过滤 协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投、拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的,进而帮助别人筛选资讯,回应不一定局限于...

2016-10-31 17:02:20

阅读数:2344

评论数:2

离线轻量级大数据平台Spark之MLib机器学习库线性回归实例

1、线性回归 线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法,只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归,在实际情况中大多数都是多元回归。 线性回归(Linear Regression)问题属于监督学习(Supervised...

2016-10-31 16:04:50

阅读数:2382

评论数:2

离线轻量级大数据平台Spark之MLib机器学习库聚类算法KMeans实例

1、KMeans算法 所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。与分类不同,分类是示例式学习,要求分类前明确各个类别,并断言每个元素映射到...

2016-10-31 14:47:42

阅读数:2999

评论数:0

离线轻量级大数据平台Spark之MLib机器学习库概念学习

Mlib机器学习库 1.1机器学习概念 机器学习有很多定义,倾向于下面这个定义。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习依赖数据经验并评估和优化算法所运行出的模型。机器学习算法尝试根据训练数据使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定。机器学习问题分类为几种...

2016-10-28 17:47:33

阅读数:5145

评论数:0

算法导论之每对顶点间的最短路径

从单源顶点最短路径到每对顶点间最短路径,求解的问题从一个点扩展到所有点,描述如下:给定一个加权有向图G=(V,E),其加权函数w:E->R为边到实数权值的映射,对于每对顶点u,v∈V,找出从u到v的一条最短路径,其中路径的权值是指其组成边的权值之和。可以把单源最短路径算法运行|V|次来解决每...

2016-10-28 10:01:36

阅读数:2416

评论数:0

离线轻量级大数据平台Spark之单机部署及Java开发

1、Spark平台基本介绍 Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and PeopleLab) 开发,可用来构建大型的、低延迟的数据分析应用程序。 Spark 是在Scala 语言中实现的,它将 Scala 用作其应用程序框架。Scala ...

2016-10-27 08:55:30

阅读数:2893

评论数:0

算法导论之单源最短路径

单源最短路径,在现实中是很多应用的,是图的经典应用,比如在地图中找出两个点之间的最短距离、最小运费等。单源最短路径的问题:已知图G=(V,E),找出给定源顶点s∈V到每个顶点v∈V的最短路径。单源最短路径衍生出的变体问题如下: 1)单终点最短路径问题:找出从每个顶点v到指定终点t的最短路径。这个...

2016-10-26 09:43:27

阅读数:3891

评论数:0

MapReduce基础开发之十读写ORC File

1、ORC File 2、编译ORC Jar包     http://orc.apache.org/ 下载源代码orc-1.2.1.tar.gz编译jar包    用ubuntu14编译,安装jdk1.8、cmake3.2.2、Maven3.0.5。   解压orc-1.2.1.tar.gz,...

2016-10-18 16:43:17

阅读数:5543

评论数:0

算法导论之图的最小生成树

引出最小生成树,是提到电子线路设计时,要把数个元件的引脚连接在一起,使其电位相同。使n个引脚互相连通,可以使用n-1条连接线,每条连接线连接两个引脚。寻求连接线最少的方案,是最小生成树的应用。将电子线路引脚接线连接问题模型化求解一个无向带权连通图的顶点互联最小代价。 一个无向带权连通图G=(V,...

2016-10-17 09:54:52

阅读数:2335

评论数:0

Java实现算法导论中图的广度优先搜索(BFS)和深度优先搜索(DFS)

对算法导论中图的广度优先搜索(BFS)和深度优先搜索(DFS)用Java实现其中的伪代码算法,案例也采用算法导论中的图。 import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import...

2016-10-12 11:34:17

阅读数:2395

评论数:0

算法导论之图的基本算法

图是一种数据结构,有关图的算法是计算机科学中基础性的算法。这个论述恰如其分。 图的基本算法包括图的表示方法和图的搜索方法。图的搜索技术是图算法领域的核心,有序地沿着图的边访问所有顶点,可以发现图的结构信息。 1、图的表示方法: 给定图G=(V,E),其中V表示图的点、E表示图的边,V[G]表...

2016-10-11 12:01:38

阅读数:3371

评论数:0

计算机视觉库OpenCV初步了解

OpenCV全称是OpenSource Computer Vision Library,是一个开放源代码的计算机视觉库。OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费试用,现在美国Willow Garage为OpenCV提供主要的支持。OpenCV可用于...

2016-10-10 11:39:40

阅读数:3183

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭