2017年08月_nanoleak coding

08月 07月

转载 Yarn下Mapreduce的内存参数理解

这篇文章算是给自己重新缕清MR下内存参数的含义Container是什么？Container就是一个yarn的Java进程，在Mapreduce中的AM，MapTask，ReduceTask都作为Container在Yarn的框架上执行，你可以在RM的网页上看到Container的状态基础Yarn的ResourceManger（简称RM）通过逻辑上的队列分配内存，CP

2017-08-17 13:57:07 314

转载用python-pandas作图矩阵

用python-pandas作图矩阵注：本文为一篇翻译文章，来自于Visualize Machine Learning Data in Python With Pandas - Machine Learning Mastery，原文标题是VisualizeMachine Learning Data in Python With Pandas（在Python里使用pandas对机

2017-08-13 14:04:35 3907 1

原创 spark mlib官方文档学习和翻译笔记（2）

基本统计相关分析和假设检验计算两列数据的相关性是统计里的通常操作。在spark.ml里，提供了计算多列数据相关性的灵活性。支持的相关系数计算方式有皮尔逊相关系数和斯皮尔曼相关系数。Correlation使用向量组成的Dataset计算相关性矩阵。输出是一个包含向量列相关性矩阵的DataFrameimport org.apache.spark.ml.linalg.{Matri

2017-08-13 13:39:47 1275

转载一文读懂集成学习

一文读懂集成学习（附学习资源）投稿丨前沿热点 9134 1320 2017-08-07THU数据派Xtecher特稿作者关注THU数据派集成算法（Ensemble Algorithms）综述严格意义上来

2017-08-12 13:39:21 13716 2

转载见过最好的神经网络CNN解释

这篇文章原地址为An Intuitive Explanation of Convolutional Neural Networks，卷积神经网络的讲解非常通俗易懂。什么是卷积神经网络？为什么它们很重要？卷积神经网络（ConvNets 或者 CNNs）属于神经网络的范畴，已经在诸如图像识别和分类的领域证明了其高效的能力。卷积神经网络可以成功识别人脸、物体和交通信号，从而为机器人和自动驾驶

2017-08-12 13:31:31 29825 6

原创 spark mlib官方文档学习和翻译笔记（1）

机器学习库MlibMLib 是一个spark机器学习库。它的目标是使机器学习容易使用和可扩展。从一个高层角度，提供了下面的工具：机器学习算法：比如分类，回归，聚类和协同过滤特征处理: 特征抽取，转换，降维和选择管道(Pipeline):构建工具，评估，和Pipelines优化持久化：保存和载入算法，模型，管道工具集：线性代数，统计，数据处理等等spark2.0后，sp

2017-08-12 11:57:17 625

原创 spark 2.0 on yarn 问题

出错Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfigat org.apache.hadoop.yarn.client.api.TimelineClient.createTimelineClient(TimelineClient.ja

2017-08-01 15:09:28 1371

Advances and Open Problems in Federated Learning.pdf

Advances and Open Problems in Federated Learning。Federated learning (FL) is a machine learning setting where many clients (e.g. mobile devices or whole organizations) collaboratively train a model under the orchestration of a central server (e.g. service provider), while keeping the training data decentralized. FL embodies the principles of focused data collection and minimization, and can mitigate many of the systemic privacy risks and costs resulting from traditional, centralized machine learning and data science approaches. Motivated by the explosive growth in FL research, this paper discusses recent advances and presents an extensive collection of open problems and challenges.

2020-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ruiyiin的专栏