2018年01月_haixwang

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark源码之路（二）：Master原理剖析与源码分析

一、涉及到的源码列表：Master.scalaWorkerInfo.scalaDriverDescription.scalaRecoveryState.scalaPersistenceEngine.scalaMetricsSystem.scalaApplicationDescription.scalaDeployMessage.scala 等等二、语言叙述（包括截图

2018-01-12 13:32:15 1668

原创从examples中学spark（二）：ModelSelectionViaCrossValidationExample.scala以及模型保存

学习前（理论）最小二乘法、岭回归、Lasso等学习中（领悟）1.首先是一段包导入，跳过import org.apache.log4j.{Level, Logger}import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport or

2018-01-06 21:36:40 1076

原创 HDFS容量究竟来自何处？以及在节点内部“横向”扩容

今天在Ambari web界面中注意到警告：我去，使用了92%，这还得了？还让不让人学习了？最开始我认为是一前朋友将namenode节点也设置为了datanode节点的原因，导致namenode“压力”大。但是细一看，不对啊，也不可能才52.7GB总容量啊，开玩笑呢。于是乎怀疑Ambari。。。去50070一看：纳闷了，怎么这么少？然后查看了各个机器的硬盘信息发现两个

2018-01-04 18:36:14 1210 3

原创从examples中学Spark（一）：BroadcastTest.scala

之前学习都是官网API Doc+社区的博文，最近参考了几篇examples，发觉example+doc才是绝配。由于集群Spark版本是2.1.1，所以我学习的examples示例是2.1.1版本中的，2.2.0版本中关于ml【也就是DataFrame版的mllib】的examples有不少内容与2.1.1版本不同。注意：使用ml的一些example还需要导入examples下的scopt_

2018-01-04 14:46:03 642

原创 Spark中DataFrame版的相关系数计算——DataFrameStatFunctions，Spark线性回归pipline

很多人还在实用RDD的相关API，为跟上“未来”，咱讨论下DataFrame版的相关API。> 2. 对数组中的数处理为绝对值之后复制一份，对副本进行排序（NaN之前已经被处理为0），每次取复制的数组中的第一个值（前提是大于阈值0.8）；在二维数组中找到对应的两个变量记为indexX和indexY> 3. 计算indexX和其他所有变量的相关系数的绝对值之和，记为sumX；同理，对indexY，记为sumY。比较

2018-01-03 20:51:25 5742

原创 Spark使用VectorAssembler时：IllegalArgumentException: Data type StringType is not supported

我的处理顺序：因为我在另外一个scala文件中已经将csv分割为了训练集和测试集，并且为了后续计算各个filed之间的相关系数而把所有filed的类型都已经改为了Double型，所以我就没有考虑我的数据会有问题。所以我怀疑是文件第一行的列名在搞鬼，然后我就去除了文件的第一行：然后：org.apache.hadoop.fs.ChecksumException: Checksum er

2018-01-02 11:41:02 5148 6

Stream Processing with Apache Flink完整书签高清pdf和epub版，以及评价超高的Streaming Systems

保证完整，目前网上找个完整的不容易（2019-06-13）; Stream Processing with Apache Flink（Flink布道者）完整书签高清pdf以及epub; 以及评价超高的Streaming Systems(谷歌大脑Tyler Akidau) ; 以及18年10月Flink技术沙

2019-06-13

Flink Forward 201809 PPT berlin

2018年09月03日至05日在 Berlin 进行的 flink forward 会议上的PPT。这里共44个演讲的PPT，1000页左右PPT。资料来源于互联网，下载于“过往记忆”。

2018-10-03

TensorFlow实战PDF+代码，TensorFlow实战Google深度学习框架+代码

《TensorFlow实战》希望用简单易懂的语言带领大家探索TensorFlow（基于1.0版本API）。在《TensorFlow实战》中我们讲述了TensorFlow的基础原理，TF和其他框架的异同。并用具体的代码完整地实现了各种类型的深度神经网络：AutoEncoder、MLP、CNN（AlexNet，VGGNet，Inception Net，ResNet）、Word2Vec、RNN（LSTM，Bi-RNN）、Deep Reinforcement Learning(Policy Network、Value Network)。此外，《TensorFlow实战》还讲解了TensorBoard、多GPU并行、分布式并行、TF.Learn和其他TF.Contrib组件。《TensorFlow实战》希望能帮读者快速入门TensorFlow和深度学习，在工业界或者研究中快速地将想法落地为可实践的模型。购买地址：https://item.jd.com/12125568.html 《TensorFlow：实战Google深度学习框架》为使用TensorFlow深度学习框架的入门参考书，旨在帮助读者以更快、更有效的方式上手TensorFlow和深度学习。书中省略了深度学习繁琐的数学模型推导，从实际应用问题出发，通过具体的TensorFlow样例程序介绍如何使用深度学习解决这些问题。《TensorFlow：实战Google深度学习框架》包含了深度学习的入门知识和大量实践经验，是走进这个更新、更火的人工智能领域的推荐参考书。购买地址：https://item.jd.com/12125572.html

2017-09-19

李兴华oracle学习笔记（全）PDF

个人感觉李兴华老师的讲课风格和马士兵老师的风格很像，这个笔记是课堂上李兴华老师敲的，非常的详细。很适合平常查询以及复习用。不想花积分的朋友可以留言，我可以私发。

2017-02-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

王某的博客

原创 Spark源码之路（二）：Master原理剖析与源码分析

原创从examples中学spark（二）：ModelSelectionViaCrossValidationExample.scala以及模型保存

原创 HDFS容量究竟来自何处？以及在节点内部“横向”扩容

原创从examples中学Spark（一）：BroadcastTest.scala

原创 Spark中DataFrame版的相关系数计算——DataFrameStatFunctions，Spark线性回归pipline

原创 Spark使用VectorAssembler时：IllegalArgumentException: Data type StringType is not supported

Stream Processing with Apache Flink完整书签高清pdf和epub版，以及评价超高的Streaming Systems

Flink Forward 201809 PPT berlin

TensorFlow实战PDF+代码，TensorFlow实战Google深度学习框架+代码

最新MySQL驱动（5.7可用）mysql-connector-java-5.1.40.zip

李兴华oracle学习笔记（全）PDF

空空如也

原创 Spark源码之路（二）：Master原理剖析与源码分析

原创 从examples中学spark（二）：ModelSelectionViaCrossValidationExample.scala以及模型保存

原创 HDFS容量究竟来自何处？以及在节点内部“横向”扩容

原创 从examples中学Spark（一）：BroadcastTest.scala

原创 Spark中DataFrame版的相关系数计算——DataFrameStatFunctions，Spark线性回归pipline

原创 Spark使用VectorAssembler时：IllegalArgumentException: Data type StringType is not supported

Stream Processing with Apache Flink完整书签高清pdf和epub版，以及评价超高的Streaming Systems

Flink Forward 201809 PPT berlin

TensorFlow实战PDF+代码，TensorFlow实战Google深度学习框架+代码

最新MySQL驱动（5.7可用）mysql-connector-java-5.1.40.zip

李兴华oracle学习笔记（全）PDF

空空如也

原创从examples中学spark（二）：ModelSelectionViaCrossValidationExample.scala以及模型保存

原创从examples中学Spark（一）：BroadcastTest.scala