自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!

  • 博客(537)
  • 资源 (23)
  • 收藏
  • 关注

原创 Spark中组件Mllib的学习23之随机梯度下降(SGD)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释 SGD(Stochastic Gradient Descent-随机梯度下降) sgd解决了梯度下降的两个问题: 收敛速度慢和陷入局部最优。 具体的介绍请见【4】、【5】和【6】背景: 梯度下降法的缺点是: 靠近极小值时速度减慢

2016-05-24 16:46:13 3220 1

原创 Spark中组件Mllib的学习22之假设检验-卡方检验概念理解

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 参考【4】的博文讲的比较清楚了,只是里面有些错误。 定义卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全

2016-05-24 11:43:21 4672

原创 Spark学习17之使用IDEA对Spark 1.5.2进行本地编译和调试(成功)

1.需要安装: jdk1.7 scala2.10.4 maven 3.3..9 idea 15.042.下载spark1.5.2源码 https://github.com/apache/spark 进release3.编译安装:mvn clean package -DskipTests查看详细错误:mvn clean package -DskipTests -X遇到的问题 (1)ma

2016-05-24 11:24:19 7669 1

原创 Spark学习16之Spark 2.0.0-preview编译安装

1.下载: (1)gitgit clone https://github.com/apache/spark.git查看版本:git tag选择版本:git checkout Version(自己指定)(2) release: 下载:https://github.com/apache/spark/releases2.编译安装:export MAVEN_OPTS="-Xmx2g -XX:MaxPer

2016-05-23 23:04:59 1853

原创 Spark中组件Mllib的学习21之随机数-RandomRDD产生

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 在org.apache.spark.mllib.random下RandomRDDs对象,处理生成RandomRDD,还可以生成uniformRDD、poissonRDD、exponentialRDD、gammaRDD等2.代码:/** *

2016-05-23 22:56:31 4316

原创 Spark中组件Mllib的学习20之假设检验-卡方检验

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分别对Vector和Matrix进行卡方检验2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com

2016-05-23 22:48:22 2315

原创 Spark中组件Mllib的学习19之分层抽样

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层1和层2,对层1和层2按不同的概率进行抽样 数据aabbccddee

2016-05-23 22:38:37 5272

原创 Spark学习15之用Maven编译时报 java.lang.OutOfMemoryError: PermGen space异常

使用:mvn clean package -DskipTests对spark进行编译时,会报错:java.lang.OutOfMemoryError: PermGen space解决办法:1.window下:set MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:Reserve dCodeCacheSize=512m 2.ubuntu下:export MA

2016-05-23 22:20:54 2066

原创 Spark中组件Mllib的学习18之corr:两组数据相关关系计算(Pearson、Spearman)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释(1)皮尔森Pearson 皮尔森相似度的原始计算公式为: 书上也有例子: (2) 斯皮尔曼等级相关 di=xi-yi 注意:这里的Xi、Yi是原始数据的等级,也就是排序序号,不是元素数据值例子: 2.代码:/** *

2016-05-23 21:41:03 8046

原创 Spark中组件Mllib的学习17之colStats:以列为基础计算统计量的基本数据

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 colStats:以列为基础计算统计量的基本数据2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.co

2016-05-23 20:04:19 2126

原创 Spark中组件Mllib的学习16之分布式行矩阵的四种形式

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分布式行矩阵有:基本行矩阵、index 行矩阵、坐标行矩阵、块行矩阵 功能一次增加2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code

2016-05-23 19:06:29 3008 1

原创 Spark中组件Mllib的学习15之创建分布式矩阵

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 创建分布式矩阵2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245/SparkLe

2016-05-23 18:21:08 1532

原创 Spark中组件Mllib的学习14之从文本中读取带标签的数据,生成带label的向量

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 从文本中读取带标签的数据,生成带label的向量2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.co

2016-05-23 18:03:24 2918

原创 Spark中组件Mllib的学习13之给向量打标签

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 给数据打label,用于后续监督学习等2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xub

2016-05-23 17:59:54 1563

原创 Spark中组件Mllib的学习12之密集向量和稀疏向量的生成

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 mllib生成Vector2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245/S

2016-05-23 17:58:01 2453

原创 spark学习14之使用maven快速切换本地调试的spark版本

更多代码请见:https://github.com/xubo245/SparkLearning1解释 有时候集群装了某个版本的spark,想再装一个版本,想简单点,可以选择本地使用idea中的maven。 本文主要是从spark1.5.2切换到spark1.6.12.代码:spark-1.5.2:<?xml version="1.0" encoding="UTF-8"?><project xm

2016-05-23 11:40:21 1546

原创 Spark组件之Spark Streaming学习6--如何调用Dstream里面的getOrCompute方法?

更多代码请见:https://github.com/xubo245/SparkLearning1解释 下图中有getOrCompute在 在Dstream中有对getOrCompute的定义,但是是 private[streaming] 的,所以需要在streaming包下才能调用 : private[streaming] final def getOrCompute(time: Time

2016-05-23 09:25:21 1122

原创 spark学习13之RDD的partitions数目获取

更多代码请见:https://github.com/xubo245/SparkLearning spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的partitions数目却为1?2.代码:sc.textFile("/xubo/GRCH38Sub/GRCH38L125

2016-05-22 16:07:24 9922 2

原创 scala学习14之scalatest中的intercept使用

scalatest中的intercept中可以测试某种错误而顺利运行,比如: intercept[AssertionError] { target1.merge(target2) }就可以检测merge是否有AssertionError,如果有则通过AssertionError: 表达式 assert(condition) 将在condition条件不成立的时候抛出 Asser

2016-05-20 19:25:15 1434

原创 scala学习13之与trait同名的object对象

一个class可以有一个伴生对象object,主要用来实现类似于java的静态属性和方法 同样trait也可以用类似的object,不确定叫不叫伴生对象,但功能可以调用在一个文件里面定义同名的trait和objectpackage org.bdgenomics.adam.test/** * Created by xubo on 2016/5/20. */object objectTrai

2016-05-20 19:20:17 1989

原创 Adam学习24之MarkDuplicatesSuite修改后有问题

sparkTest("test score") { val poorClippedReads = for (i <- 0 until 5) yield { createMappedRead("1", 44, 142, numClippedBases = 2, avgPhredScore = 30, readName = "poorClipped%d".format(i))

2016-05-19 20:52:53 617

原创 Java问题总结33之利用UUID生成全局唯一码(Scala环境运行)

1.解释: UUID(Universally Unique Identifier)全局唯一标识符,是指在一台机器上生成的数字,它保证对在同一时空中的所有机器都是唯一的。按照开放软件基金会(OSF)制定的标准计算,用到了以太网卡地址、纳秒级时间、芯片ID码和许多可能的数字。由以下几部分的组合:当前日期和时间(UUID的第一个部分与时间有关,如果你在生成一个UUID之后,过几秒又生成一个UUID,则第

2016-05-19 18:49:13 6484

原创 Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径?

Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径? 使用maven又如何设置?

2016-05-19 18:43:50 2502 2

原创 Spark疑问3之spark 如何并行执行多个Job?

使用Spark的时候一般都是一个application的Job串行执行,如何并行执行? 如何提高spark对计算资源(CPU和内存等)的利用率? 1M数据10个action或者更多的action,如果串行效率低,如何并行执行job?-star

2016-05-19 18:41:19 10752

原创 Adam学习23之adamSortReadsByReferencePosition源码分析

对已经匹配或者没有匹配的reads进行排序源码: def adamSortReadsByReferencePosition(): RDD[AlignmentRecord] = SortReads.time { log.info("Sorting reads by reference position") // NOTE: In order to keep unmapped reads

2016-05-19 18:19:51 717

原创 spark学习12之利用keyBy对数据中其中两项进行排序

更多代码请见:https://github.com/xubo245/SparkLearning1解释 由于有时候数据的列数很多,不只是按一项作为key来排序,有时候需要对其中两项进行排序,spark的RDD提供了keyBy的方法。使用场景例子为: init: (ab,2,3) (ac,4,100) (bb,1,200) (ac,1,1) (bb,2,5)sort: (ab,2,3)

2016-05-19 16:41:41 6878

原创 Github的repositories的文件大小限制

repositories总的大小应该没什么限制,不确定,目前带数据已经操过100M; repositories对当个文件大小限制为100M,超过100M会报error recommend大小为10M记录:xubo@xubo-PC MINGW64 /e/all/git/SparkLearning (master)$ git push SparkLearning masterEnter pass

2016-05-18 13:29:27 10846

原创 Spark中组件Mllib的学习11之使用ALS对movieLens中一百万条(1M)数据集进行训练,并对输入的新用户数据进行电影推荐

更多代码请见:https://github.com/xubo245/SparkLearning1解释 spark-1.5.2 数据集:http://grouplens.org/datasets/movielens/ 一百万条(1M) 数据划分: 将样本评分表以key值切分成3个部分,分别用于训练 (60%,并加入用户评分), 校验 (20%), and 测试 (20%)用多个参数训练模型,

2016-05-17 22:13:48 4579 6

原创 Spark中组件Mllib的学习10之修改MovieLens来对movieLen中的100k数据进行预测

更多代码请见:https://github.com/xubo245/SparkLearning1解释 数据下载:http://files.grouplens.org/datasets/movielens/2.代码:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor licen

2016-05-17 21:14:19 2974 2

原创 Spark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究

更多代码请见:https://github.com/xubo245/SparkLearning1解释 研究ALS的准确率2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.{SparkC

2016-05-17 20:38:32 3876

原创 Spark中组件Mllib的学习8之ALS训练的model来预测数据

更多代码请见:https://github.com/xubo245/SparkLearning1解释 使用官网的ALS来预测用户2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.{Sp

2016-05-16 23:00:43 1312

原创 Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据

更多代码请见:https://github.com/xubo245/SparkLearning1解释 使用隐式转换的来进行推荐,感觉有问题2.代码:package apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.ml

2016-05-16 22:58:55 4427

原创 Spark中组件Mllib的学习6之ALS测试(apache spark 含隐式转换)

更多代码请见:https://github.com/xubo245/SparkLearning spark-1.5.2 1解释 使用spark 官网推荐的算法,使用了隐式转换2.代码:package apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport

2016-05-16 22:49:00 2506 1

原创 Spark中组件Mllib的学习5之ALS测试(apache spark)

更多代码请见:https://github.com/xubo245/SparkLearning1解释 按照spark官网使用ALS进行计算2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spar

2016-05-16 22:47:15 1672

原创 Spark中组件Mllib的学习4之examples中的MovieLensALS修改本地运行

环境: spark-1.5.2在idea中自己定义的project中local模式运行,需要注意几个地方:1.文件导入: MovieLensALS.scala 和AbstractParams.scala 其中继承了MovieLensALSAbstractParams,如果不导入AbstractParams会报错2.maven 的pom导入包<?xml version="1.0" encodi

2016-05-16 22:33:59 2557

原创 spark学习11之在idea中将eclipse导入的java project改成maven project

方法: 项目上右键 Add Framework Support,选择maven参考: 【1】 http://bbs.csdn.net/topics/390764673

2016-05-16 21:38:14 799

原创 Spark中组件Mllib的学习3之用户相似度计算

代码:/** * @author xubo * time 2016.516 * ref 《Spark MlLib 机器学习实战》P64 */package org.apache.spark.mllib.learning.recommendimport org.apache.spark.{SparkConf, SparkContext}import s

2016-05-16 20:59:28 4465

原创 spark学习10之将spark的AppName设置为自动获取当前类名

每次输入好麻烦,故可以: object CollaborativeFilteringSpark { val conf = new SparkConf().setMaster("local").setAppName(this.getClass().getSimpleName().filter(!_.equals('$'))) // println(this.getClass().getSim

2016-05-16 20:58:18 10156 2

原创 Adam学习22之在window下使用idea的maven编译安装记录

编译时adam-cli会报错,git目录找不到,可以参考http://blog.csdn.net/xubo245/article/details/51177616解决1.mvn installD:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent_2.10-0.19.0 -

2016-05-14 12:48:45 2123

原创 Adam学习21之在Ubuntu下编译安装记录

环境: adam-2.10.0.19 clean package test install1.Ubuntu下对adam进行mvn clean package -DskipTestsxubo@xubo:~/cloud/adam-2.10-0.19-git$ mvn clean package -DskipTests[INFO] Scanning for projects...[INFO]

2016-05-14 11:27:47 1782

CarbonData学习资料

Apache CarbonData学习文档汇总,包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

高级Shell脚本编程

高级Shell脚本编程,高级Shell脚本编程

2016-03-15

2015年中国软件开发者白皮书

2015年中国软件开发者白皮书

2016-01-12

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz,官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT,资金流入 流出预测 冠军答辩PPT 阿里云 天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz,redis-3.0.4安装包,官网下载

2015-09-09

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范 本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

10部算法经典著作的合集

10部算法经典著作的合集

2015-08-20

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1], and A must be M-by-N-by-3. % % - If A is of class uint8 or uint16, A must be M-by-N-by-3. % % Note that a four-dimensional array that contains multiple RGB % images returns 0, not 1. % % Class Support % ------------- % A can be of class uint8, uint16, or double. If A is of % class logical it is considered not to be RGB. % % See also ISBW, ISGRAY, ISIND. % Copyright 1993-2003 The MathWorks, Inc. % $Revision: 1.15.4.2 $ $Date: 2003/08/23 05:52:55 $ wid = sprintf('Images:%s:obsoleteFunction',mfilename); str1= sprintf('%s is obsolete and may be removed in the future.',mfilename); str2 = 'See product release notes for more information.'; warning(wid,'%s\n%s',str1,str2); y = size(x,3)==3; if y if isa(x, 'logical') y = false; elseif isa(x, 'double') % At first just test a small chunk to get a possible quick negative m = size(x,1); n = size(x,2); chunk = x(1:min(m,10),1:min(n,10),:); y = (min(chunk(:))>=0 && max(chunk(:))=0 && max(x(:))<=1); end end end

2014-03-27

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波 实验要求: 第二版208页程序15 第二版208页程序20,将二阶改为四阶,求第二个 实验环境: 操作系统:Windows8 64位  编译软件:Code::Blocks 版本:10.05 位数:32位 实验提交时间:  考前 实验说明: Gauss_Seidel: 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 Runge_Kutta 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 附件: 程序15:Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图 程序20:Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图 实验心得:   通过这次实验,对Gauss_Seidel法和Runge_Kutta法了解更深,并且有了实际运行经验,而且通过编程,对方法每一步的运算数据的输入输出了解更深,总的来说收获很大,我们应该多写些类似的程序,希望能将其放在网页上,输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ:601450868  

2013-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除