2016年11月_Losteng

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

转载 Spark性能优化指南二——高级篇

1.如何判断发生数据倾斜？ 2.为什么会发生数据倾斜? 3.如何定位导致数据倾斜的代码? 4.Spark Web UI哪些参数可以反映数据倾斜？ 5.本文对于数据倾斜提出哪些解决方案？前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能

2016-11-27 20:34:08 1009

转载 RDD详解

1、RDD是什么？ 2、为什么产生RDD？ 3、RDD在spark是什么地位？ 4、RDD在spark说是什么作用？ 5、如何操作RDD？一、Spark RDD详解 1、RDD是什么？ RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全

2016-11-27 20:19:29 1298

转载 Spark性能优化指南一——基础篇

1.Spark调优有哪些原则？ 2.Spark作业原理是什么？ 3.怎样进行参数调优？前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark

2016-11-27 20:13:56 2493

原创 Spark1.6学习-RDD

最近开始学习spark的的东西，在学习之前可以去学习一些scala的，毕竟源码是scala的，有些东西操作习惯是从scala中扩展出来的。下面切入正题可以参考，下面的官方文档 http://spark.apache.org/docs/1.6.0/programming-guide.html#resilient-distributed-datasets-rdds RDDs（Resil

2016-11-24 20:08:35 794

python 创建lmdb

2016-04-29

python数据转换

使用python将预想转换成为其规定的数据集

2016-04-29

深度学习基础教程

深度学习的一个系统的教程，跟网上吴恩达的那个是一致的，只是这个文档时汉化的，其中的练习题需要自己去实践，对初学者帮助很大。

2015-11-26

高光谱遥感——原理、技术与应用

童庆禧张兵等著，高等教育出版社出版，很详细的技术书籍

2015-08-28

计算机网络

【实验目的】 1. 了解局域网各组成部分。 2. 掌握网络设备类型选择、软硬件设置方法。 3. 掌握基本的网络故障的判断、解决方法。

2011-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人