- 博客(6)
- 资源 (5)
- 收藏
- 关注
原创 Spark源码之路(二):Master原理剖析与源码分析
一、涉及到的源码列表:Master.scalaWorkerInfo.scalaDriverDescription.scalaRecoveryState.scalaPersistenceEngine.scalaMetricsSystem.scalaApplicationDescription.scalaDeployMessage.scala 等等二、语言叙述(包括截图
2018-01-12 13:32:15 1668
原创 从examples中学spark(二):ModelSelectionViaCrossValidationExample.scala以及模型保存
学习前(理论)最小二乘法、岭回归、Lasso等学习中(领悟)1.首先是一段包导入,跳过import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport or
2018-01-06 21:36:40 1076
原创 HDFS容量究竟来自何处?以及在节点内部“横向”扩容
今天在Ambari web界面中注意到警告: 我去,使用了92%,这还得了?还让不让人学习了?最开始我认为是一前朋友将namenode节点也设置为了datanode节点的原因,导致namenode“压力”大。但是细一看,不对啊,也不可能才52.7GB总容量啊,开玩笑呢。于是乎怀疑Ambari。。。去50070一看: 纳闷了,怎么这么少?然后查看了各个机器的硬盘信息 发现两个
2018-01-04 18:36:14 1210 3
原创 从examples中学Spark(一):BroadcastTest.scala
之前学习都是官网API Doc+社区的博文,最近参考了几篇examples,发觉example+doc才是绝配。 由于集群Spark版本是2.1.1,所以我学习的examples示例是2.1.1版本中的,2.2.0版本中关于ml【也就是DataFrame版的mllib】的examples有不少内容与2.1.1版本不同。 注意:使用ml的一些example还需要导入examples下的scopt_
2018-01-04 14:46:03 642
原创 Spark中DataFrame版的相关系数计算——DataFrameStatFunctions,Spark线性回归pipline
很多人还在实用RDD的相关API,为跟上“未来”,咱讨论下DataFrame版的相关API。> 2. 对数组中的数处理为绝对值之后复制一份,对副本进行排序(NaN之前已经被处理为0),每次取复制的数组中的第一个值(前提是大于阈值0.8);在二维数组中找到对应的两个变量记为indexX和indexY> 3. 计算indexX和其他所有变量的相关系数的绝对值之和,记为sumX;同理,对indexY,记为sumY。比较
2018-01-03 20:51:25 5742
原创 Spark使用VectorAssembler时:IllegalArgumentException: Data type StringType is not supported
我的处理顺序: 因为我在另外一个scala文件中已经将csv分割为了训练集和测试集,并且为了后续计算各个filed之间的相关系数而把所有filed的类型都已经改为了Double型,所以我就没有考虑我的数据会有问题。 所以我怀疑是文件第一行的列名在搞鬼,然后我就去除了文件的第一行:然后:org.apache.hadoop.fs.ChecksumException: Checksum er
2018-01-02 11:41:02 5148 6
Stream Processing with Apache Flink完整书签高清pdf和epub版,以及评价超高的Streaming Systems
2019-06-13
Flink Forward 201809 PPT berlin
2018-10-03
TensorFlow实战PDF+代码,TensorFlow实战Google深度学习框架+代码
2017-09-19
最新MySQL驱动(5.7可用)mysql-connector-java-5.1.40.zip
2017-02-12
李兴华oracle学习笔记(全)PDF
2017-02-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人