java.lang.UnsatisfiedLinkError: org.jblas.NativeBlas.dposv(CII[DII[DII)I

Spark documentation clearly mentions that MLLib uses native libraries, which need to be present on the nodes. for debian/ubuntu use: sudo apt-...

2015-06-23 14:17:23

阅读数 358

评论数 0

eclipse 打包jar及提交spark执行步骤

1,export对应的源文件。默认finish即可。 2,用解压工具包编辑manifest.mf文件。 其中 Main-Class: com.example.myapp.MyAppMain   //执行main主类 Class-Path: mail.jar activation.jar  ...

2015-06-19 17:45:23

阅读数 1599

评论数 0

spark对笛卡尔乘积的优化

import org.apache.spark.rdd._ def combs(rdd:RDD[String]):RDD[(String,String)] = { val count = rdd.count if (rdd.count 2) { sc.mak...

2015-03-05 17:02:49

阅读数 2581

评论数 2

海量数据面试题举例

 数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。     下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面...

2014-12-18 15:02:03

阅读数 241

评论数 0

ubuntu12.04 安装sbt

ubuntu14 手动安装sbt  参见官网配置说明http://www.scala-sbt.org/release/tutorial/Manual-Installation.html    1、下载sbt通用平台压缩包:sbt-0.13.5.tgz   http://www.scala-...

2014-11-03 09:58:41

阅读数 544

评论数 0

一维搜索技术

首先,我们要qu

2014-09-16 14:36:11

阅读数 397

评论数 0

Richard 外推法求梯度

richard

2014-09-16 11:32:39

阅读数 476

评论数 0

数据挖掘面试题

1,请介绍一下SVM,Boosting,LR中任何一个最熟悉的算法的目标函数、优化过程、并行实现、算法收敛性、样本复杂度、适用场景、调参经验。

2014-08-27 14:29:28

阅读数 453

评论数 0

倾斜数据的处理

一般认为,倾斜的数据就是严重不对称的shu'j

2014-08-22 20:41:37

阅读数 392

评论数 0

R语言学习-线性回归

先来解释几个线性回归的概念。

2014-08-20 09:23:49

阅读数 909

评论数 0

Spark性能相关参数配置

Spark性能相关参数配置 http://spark-config.readthedocs.org/en/latest/ 随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/...

2014-08-20 09:00:30

阅读数 583

评论数 0

spark RDD 详解

最近看了一个RDD各种操作的文章,you'xie

2014-08-16 13:14:07

阅读数 1835

评论数 0

转载:spark相关流程解析

对spark的相关流程有概念之后,才能进行相应的调优spark启动流程图

2014-08-14 10:15:55

阅读数 327

评论数 0

emacs中集成Python

1. 安装YASnippet YASnippet是一个模板自动生成工具,支持C,C++,C#,perl,python等语言。使用非常简单。 安装YASnippet在Emacs24版本以上变得非常容易,只需M-x list-package,之后选择YASnippet并且安装即可。之后在.emac...

2014-08-12 13:26:56

阅读数 488

评论数 0

转载:机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1...

2014-08-11 14:37:24

阅读数 256

评论数 0

转载:微博推荐算法简述

本文来自于:http://www.wbrecom.com/:图就不贴了,有兴趣打开原 在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早,但真正被大家所重视,缘起于以”face...

2014-08-11 14:29:01

阅读数 821

评论数 0

转载:一步一步教你怎样给Apache Spark贡献代码

到 Apache Spark 的github 页面内点击 fork 按钮你的github帐户中会出现 spark 这个项目本地电脑上, 使用 git clone [你的 spark repository 的 github 地址] 例如: git clone git@github.com:gche...

2014-08-11 14:06:05

阅读数 280

评论数 0

ESL-12-svm

之金额library(MASS) x.1 y.1 blue x.2 y.2 orange x.blue x.orange for(i in 1:100)     {         m         x.blue....

2014-08-04 14:10:49

阅读数 462

评论数 0

数据挖掘需要考虑的问题

1,数据计算的时空复杂度。 2,

2014-07-30 14:13:06

阅读数 316

评论数 0

ESL-chapter10-boosting

boosting是一个很强大的方法。现介绍如下:

2014-07-29 09:30:21

阅读数 348

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭