自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (5)
  • 收藏
  • 关注

原创 Spark源码之路(二):Master原理剖析与源码分析

一、涉及到的源码列表:Master.scalaWorkerInfo.scalaDriverDescription.scalaRecoveryState.scalaPersistenceEngine.scalaMetricsSystem.scalaApplicationDescription.scalaDeployMessage.scala 等等二、语言叙述(包括截图

2018-01-12 13:32:15 1668

原创 从examples中学spark(二):ModelSelectionViaCrossValidationExample.scala以及模型保存

学习前(理论)最小二乘法、岭回归、Lasso等学习中(领悟)1.首先是一段包导入,跳过import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport or

2018-01-06 21:36:40 1076

原创 HDFS容量究竟来自何处?以及在节点内部“横向”扩容

今天在Ambari web界面中注意到警告: 我去,使用了92%,这还得了?还让不让人学习了?最开始我认为是一前朋友将namenode节点也设置为了datanode节点的原因,导致namenode“压力”大。但是细一看,不对啊,也不可能才52.7GB总容量啊,开玩笑呢。于是乎怀疑Ambari。。。去50070一看: 纳闷了,怎么这么少?然后查看了各个机器的硬盘信息 发现两个

2018-01-04 18:36:14 1210 3

原创 从examples中学Spark(一):BroadcastTest.scala

之前学习都是官网API Doc+社区的博文,最近参考了几篇examples,发觉example+doc才是绝配。 由于集群Spark版本是2.1.1,所以我学习的examples示例是2.1.1版本中的,2.2.0版本中关于ml【也就是DataFrame版的mllib】的examples有不少内容与2.1.1版本不同。 注意:使用ml的一些example还需要导入examples下的scopt_

2018-01-04 14:46:03 642

原创 Spark中DataFrame版的相关系数计算——DataFrameStatFunctions,Spark线性回归pipline

很多人还在实用RDD的相关API,为跟上“未来”,咱讨论下DataFrame版的相关API。> 2. 对数组中的数处理为绝对值之后复制一份,对副本进行排序(NaN之前已经被处理为0),每次取复制的数组中的第一个值(前提是大于阈值0.8);在二维数组中找到对应的两个变量记为indexX和indexY> 3. 计算indexX和其他所有变量的相关系数的绝对值之和,记为sumX;同理,对indexY,记为sumY。比较

2018-01-03 20:51:25 5742

原创 Spark使用VectorAssembler时:IllegalArgumentException: Data type StringType is not supported

我的处理顺序: 因为我在另外一个scala文件中已经将csv分割为了训练集和测试集,并且为了后续计算各个filed之间的相关系数而把所有filed的类型都已经改为了Double型,所以我就没有考虑我的数据会有问题。 所以我怀疑是文件第一行的列名在搞鬼,然后我就去除了文件的第一行:然后:org.apache.hadoop.fs.ChecksumException: Checksum er

2018-01-02 11:41:02 5148 6

Stream Processing with Apache Flink完整书签高清pdf和epub版,以及评价超高的Streaming Systems

保证完整,目前网上找个完整的不容易(2019-06-13); Stream Processing with Apache Flink(Flink布道者)完整书签高清pdf以及epub; 以及评价超高的Streaming Systems(谷歌大脑Tyler Akidau) ; 以及18年10月Flink技术沙

2019-06-13

Flink Forward 201809 PPT berlin

2018年09月03日至05日在 Berlin 进行的 flink forward 会议上的PPT。这里共44个演讲的PPT,1000页左右PPT。资料来源于互联网,下载于“过往记忆”。

2018-10-03

TensorFlow实战PDF+代码,TensorFlow实战Google深度学习框架+代码

《TensorFlow实战》希望用简单易懂的语言带领大家探索TensorFlow(基于1.0版本API)。在《TensorFlow实战》中我们讲述了TensorFlow的基础原理,TF和其他框架的异同。并用具体的代码完整地实现了各种类型的深度神经网络:AutoEncoder、MLP、CNN(AlexNet,VGGNet,Inception Net,ResNet)、Word2Vec、RNN(LSTM,Bi-RNN)、Deep Reinforcement Learning(Policy Network、Value Network)。此外,《TensorFlow实战》还讲解了TensorBoard、多GPU并行、分布式并行、TF.Learn和其他TF.Contrib组件。《TensorFlow实战》希望能帮读者快速入门TensorFlow和深度学习,在工业界或者研究中快速地将想法落地为可实践的模型。 购买地址:https://item.jd.com/12125568.html 《TensorFlow:实战Google深度学习框架》为使用TensorFlow深度学习框架的入门参考书,旨在帮助读者以更快、更有效的方式上手TensorFlow和深度学习。书中省略了深度学习繁琐的数学模型推导,从实际应用问题出发,通过具体的TensorFlow样例程序介绍如何使用深度学习解决这些问题。《TensorFlow:实战Google深度学习框架》包含了深度学习的入门知识和大量实践经验,是走进这个更新、更火的人工智能领域的推荐参考书。 购买地址:https://item.jd.com/12125572.html

2017-09-19

最新MySQL驱动(5.7可用)mysql-connector-java-5.1.40.zip

官网最新的MySQL驱动包,Java-jdbc. 版本5.1.40 亲测MySQL5.7.17可用

2017-02-12

李兴华oracle学习笔记(全)PDF

个人感觉李兴华老师的讲课风格和马士兵老师的风格很像,这个笔记是课堂上李兴华老师敲的,非常的详细。很适合平常查询以及复习用。不想花积分的朋友可以留言,我可以私发。

2017-02-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除