- 博客(537)
- 资源 (23)
- 收藏
- 关注
原创 Spark中组件Mllib的学习23之随机梯度下降(SGD)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释 SGD(Stochastic Gradient Descent-随机梯度下降) sgd解决了梯度下降的两个问题: 收敛速度慢和陷入局部最优。 具体的介绍请见【4】、【5】和【6】背景: 梯度下降法的缺点是: 靠近极小值时速度减慢
2016-05-24 16:46:13 3220 1
原创 Spark中组件Mllib的学习22之假设检验-卡方检验概念理解
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 参考【4】的博文讲的比较清楚了,只是里面有些错误。 定义卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全
2016-05-24 11:43:21 4672
原创 Spark学习17之使用IDEA对Spark 1.5.2进行本地编译和调试(成功)
1.需要安装: jdk1.7 scala2.10.4 maven 3.3..9 idea 15.042.下载spark1.5.2源码 https://github.com/apache/spark 进release3.编译安装:mvn clean package -DskipTests查看详细错误:mvn clean package -DskipTests -X遇到的问题 (1)ma
2016-05-24 11:24:19 7669 1
原创 Spark学习16之Spark 2.0.0-preview编译安装
1.下载: (1)gitgit clone https://github.com/apache/spark.git查看版本:git tag选择版本:git checkout Version(自己指定)(2) release: 下载:https://github.com/apache/spark/releases2.编译安装:export MAVEN_OPTS="-Xmx2g -XX:MaxPer
2016-05-23 23:04:59 1853
原创 Spark中组件Mllib的学习21之随机数-RandomRDD产生
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 在org.apache.spark.mllib.random下RandomRDDs对象,处理生成RandomRDD,还可以生成uniformRDD、poissonRDD、exponentialRDD、gammaRDD等2.代码:/** *
2016-05-23 22:56:31 4316
原创 Spark中组件Mllib的学习20之假设检验-卡方检验
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分别对Vector和Matrix进行卡方检验2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com
2016-05-23 22:48:22 2315
原创 Spark中组件Mllib的学习19之分层抽样
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层1和层2,对层1和层2按不同的概率进行抽样 数据aabbccddee
2016-05-23 22:38:37 5272
原创 Spark学习15之用Maven编译时报 java.lang.OutOfMemoryError: PermGen space异常
使用:mvn clean package -DskipTests对spark进行编译时,会报错:java.lang.OutOfMemoryError: PermGen space解决办法:1.window下:set MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:Reserve dCodeCacheSize=512m 2.ubuntu下:export MA
2016-05-23 22:20:54 2066
原创 Spark中组件Mllib的学习18之corr:两组数据相关关系计算(Pearson、Spearman)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释(1)皮尔森Pearson 皮尔森相似度的原始计算公式为: 书上也有例子: (2) 斯皮尔曼等级相关 di=xi-yi 注意:这里的Xi、Yi是原始数据的等级,也就是排序序号,不是元素数据值例子: 2.代码:/** *
2016-05-23 21:41:03 8046
原创 Spark中组件Mllib的学习17之colStats:以列为基础计算统计量的基本数据
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 colStats:以列为基础计算统计量的基本数据2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.co
2016-05-23 20:04:19 2126
原创 Spark中组件Mllib的学习16之分布式行矩阵的四种形式
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分布式行矩阵有:基本行矩阵、index 行矩阵、坐标行矩阵、块行矩阵 功能一次增加2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code
2016-05-23 19:06:29 3008 1
原创 Spark中组件Mllib的学习15之创建分布式矩阵
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 创建分布式矩阵2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245/SparkLe
2016-05-23 18:21:08 1532
原创 Spark中组件Mllib的学习14之从文本中读取带标签的数据,生成带label的向量
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 从文本中读取带标签的数据,生成带label的向量2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.co
2016-05-23 18:03:24 2918
原创 Spark中组件Mllib的学习13之给向量打标签
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 给数据打label,用于后续监督学习等2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xub
2016-05-23 17:59:54 1563
原创 Spark中组件Mllib的学习12之密集向量和稀疏向量的生成
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 mllib生成Vector2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245/S
2016-05-23 17:58:01 2453
原创 spark学习14之使用maven快速切换本地调试的spark版本
更多代码请见:https://github.com/xubo245/SparkLearning1解释 有时候集群装了某个版本的spark,想再装一个版本,想简单点,可以选择本地使用idea中的maven。 本文主要是从spark1.5.2切换到spark1.6.12.代码:spark-1.5.2:<?xml version="1.0" encoding="UTF-8"?><project xm
2016-05-23 11:40:21 1546
原创 Spark组件之Spark Streaming学习6--如何调用Dstream里面的getOrCompute方法?
更多代码请见:https://github.com/xubo245/SparkLearning1解释 下图中有getOrCompute在 在Dstream中有对getOrCompute的定义,但是是 private[streaming] 的,所以需要在streaming包下才能调用 : private[streaming] final def getOrCompute(time: Time
2016-05-23 09:25:21 1122
原创 spark学习13之RDD的partitions数目获取
更多代码请见:https://github.com/xubo245/SparkLearning spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的partitions数目却为1?2.代码:sc.textFile("/xubo/GRCH38Sub/GRCH38L125
2016-05-22 16:07:24 9922 2
原创 scala学习14之scalatest中的intercept使用
scalatest中的intercept中可以测试某种错误而顺利运行,比如: intercept[AssertionError] { target1.merge(target2) }就可以检测merge是否有AssertionError,如果有则通过AssertionError: 表达式 assert(condition) 将在condition条件不成立的时候抛出 Asser
2016-05-20 19:25:15 1434
原创 scala学习13之与trait同名的object对象
一个class可以有一个伴生对象object,主要用来实现类似于java的静态属性和方法 同样trait也可以用类似的object,不确定叫不叫伴生对象,但功能可以调用在一个文件里面定义同名的trait和objectpackage org.bdgenomics.adam.test/** * Created by xubo on 2016/5/20. */object objectTrai
2016-05-20 19:20:17 1989
原创 Adam学习24之MarkDuplicatesSuite修改后有问题
sparkTest("test score") { val poorClippedReads = for (i <- 0 until 5) yield { createMappedRead("1", 44, 142, numClippedBases = 2, avgPhredScore = 30, readName = "poorClipped%d".format(i))
2016-05-19 20:52:53 617
原创 Java问题总结33之利用UUID生成全局唯一码(Scala环境运行)
1.解释: UUID(Universally Unique Identifier)全局唯一标识符,是指在一台机器上生成的数字,它保证对在同一时空中的所有机器都是唯一的。按照开放软件基金会(OSF)制定的标准计算,用到了以太网卡地址、纳秒级时间、芯片ID码和许多可能的数字。由以下几部分的组合:当前日期和时间(UUID的第一个部分与时间有关,如果你在生成一个UUID之后,过几秒又生成一个UUID,则第
2016-05-19 18:49:13 6484
原创 Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径?
Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径? 使用maven又如何设置?
2016-05-19 18:43:50 2502 2
原创 Spark疑问3之spark 如何并行执行多个Job?
使用Spark的时候一般都是一个application的Job串行执行,如何并行执行? 如何提高spark对计算资源(CPU和内存等)的利用率? 1M数据10个action或者更多的action,如果串行效率低,如何并行执行job?-star
2016-05-19 18:41:19 10752
原创 Adam学习23之adamSortReadsByReferencePosition源码分析
对已经匹配或者没有匹配的reads进行排序源码: def adamSortReadsByReferencePosition(): RDD[AlignmentRecord] = SortReads.time { log.info("Sorting reads by reference position") // NOTE: In order to keep unmapped reads
2016-05-19 18:19:51 717
原创 spark学习12之利用keyBy对数据中其中两项进行排序
更多代码请见:https://github.com/xubo245/SparkLearning1解释 由于有时候数据的列数很多,不只是按一项作为key来排序,有时候需要对其中两项进行排序,spark的RDD提供了keyBy的方法。使用场景例子为: init: (ab,2,3) (ac,4,100) (bb,1,200) (ac,1,1) (bb,2,5)sort: (ab,2,3)
2016-05-19 16:41:41 6878
原创 Github的repositories的文件大小限制
repositories总的大小应该没什么限制,不确定,目前带数据已经操过100M; repositories对当个文件大小限制为100M,超过100M会报error recommend大小为10M记录:xubo@xubo-PC MINGW64 /e/all/git/SparkLearning (master)$ git push SparkLearning masterEnter pass
2016-05-18 13:29:27 10846
原创 Spark中组件Mllib的学习11之使用ALS对movieLens中一百万条(1M)数据集进行训练,并对输入的新用户数据进行电影推荐
更多代码请见:https://github.com/xubo245/SparkLearning1解释 spark-1.5.2 数据集:http://grouplens.org/datasets/movielens/ 一百万条(1M) 数据划分: 将样本评分表以key值切分成3个部分,分别用于训练 (60%,并加入用户评分), 校验 (20%), and 测试 (20%)用多个参数训练模型,
2016-05-17 22:13:48 4579 6
原创 Spark中组件Mllib的学习10之修改MovieLens来对movieLen中的100k数据进行预测
更多代码请见:https://github.com/xubo245/SparkLearning1解释 数据下载:http://files.grouplens.org/datasets/movielens/2.代码:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor licen
2016-05-17 21:14:19 2974 2
原创 Spark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究
更多代码请见:https://github.com/xubo245/SparkLearning1解释 研究ALS的准确率2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.{SparkC
2016-05-17 20:38:32 3876
原创 Spark中组件Mllib的学习8之ALS训练的model来预测数据
更多代码请见:https://github.com/xubo245/SparkLearning1解释 使用官网的ALS来预测用户2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.{Sp
2016-05-16 23:00:43 1312
原创 Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据
更多代码请见:https://github.com/xubo245/SparkLearning1解释 使用隐式转换的来进行推荐,感觉有问题2.代码:package apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.ml
2016-05-16 22:58:55 4427
原创 Spark中组件Mllib的学习6之ALS测试(apache spark 含隐式转换)
更多代码请见:https://github.com/xubo245/SparkLearning spark-1.5.2 1解释 使用spark 官网推荐的算法,使用了隐式转换2.代码:package apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport
2016-05-16 22:49:00 2506 1
原创 Spark中组件Mllib的学习5之ALS测试(apache spark)
更多代码请见:https://github.com/xubo245/SparkLearning1解释 按照spark官网使用ALS进行计算2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spar
2016-05-16 22:47:15 1672
原创 Spark中组件Mllib的学习4之examples中的MovieLensALS修改本地运行
环境: spark-1.5.2在idea中自己定义的project中local模式运行,需要注意几个地方:1.文件导入: MovieLensALS.scala 和AbstractParams.scala 其中继承了MovieLensALSAbstractParams,如果不导入AbstractParams会报错2.maven 的pom导入包<?xml version="1.0" encodi
2016-05-16 22:33:59 2557
原创 spark学习11之在idea中将eclipse导入的java project改成maven project
方法: 项目上右键 Add Framework Support,选择maven参考: 【1】 http://bbs.csdn.net/topics/390764673
2016-05-16 21:38:14 799
原创 Spark中组件Mllib的学习3之用户相似度计算
代码:/** * @author xubo * time 2016.516 * ref 《Spark MlLib 机器学习实战》P64 */package org.apache.spark.mllib.learning.recommendimport org.apache.spark.{SparkConf, SparkContext}import s
2016-05-16 20:59:28 4465
原创 spark学习10之将spark的AppName设置为自动获取当前类名
每次输入好麻烦,故可以: object CollaborativeFilteringSpark { val conf = new SparkConf().setMaster("local").setAppName(this.getClass().getSimpleName().filter(!_.equals('$'))) // println(this.getClass().getSim
2016-05-16 20:58:18 10156 2
原创 Adam学习22之在window下使用idea的maven编译安装记录
编译时adam-cli会报错,git目录找不到,可以参考http://blog.csdn.net/xubo245/article/details/51177616解决1.mvn installD:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent_2.10-0.19.0 -
2016-05-14 12:48:45 2123
原创 Adam学习21之在Ubuntu下编译安装记录
环境: adam-2.10.0.19 clean package test install1.Ubuntu下对adam进行mvn clean package -DskipTestsxubo@xubo:~/cloud/adam-2.10-0.19-git$ mvn clean package -DskipTests[INFO] Scanning for projects...[INFO]
2016-05-14 11:27:47 1782
opencv 3.4.1 jar
2018-05-16
JDK.API.7_English.chm
2015-08-24
Java 2 SE 6 Documentation.chm
2015-08-24
JavaSE中文API.chm
2015-08-24
jdk api 1.7英文版-带索引
2015-08-24
isrgb.m,matlab
2014-03-27
计算方法实验Gauss_Seidel法和Runge_Kutta法
2013-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人