- 博客(13)
- 资源 (2)
- 收藏
- 关注
转载 Spark性能优化指南——高级篇
Spark性能优化指南——高级篇原文链接:美团点评技术博客前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种...
2018-06-26 15:13:14 248
转载 Spark性能优化指南:基础篇
Spark性能优化指南——基础篇原文链接:美团点评技术博客前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark...
2018-06-26 15:11:00 208
转载 分布式消息系统:Kafka
分布式消息系统:KafkaKafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同...
2018-06-26 14:51:38 209
转载 详细探究Spark的shuffle实现
详细探究Spark的shuffle实现Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什...
2018-06-26 14:25:44 236
转载 Python数据预处理—归一化,标准化,正则化
Python数据预处理—归一化,标准化,正则化关于数据预处理的几个概念归一化 (Normalization):属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现。常用的最小最大规范化方法(x-min(x))/(max(x)-min(x))除了上述介绍的方法之外,另一种常用的方法是将属性缩放到一个指定的最大和最小值(通常是1-0...
2018-06-23 21:48:44 33740 1
转载 Python-数据清洗
python--数据清洗1.数据错误:错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• ‘0’ 代表真实的0,还是代表缺失– 数据不一致• 比如收入单位是万元,利润单位是元,或者一个单位是美元,一个是人民币– 数据重复2.缺失值处理:处理原则–缺失值少于20%•连续变量使用均值或中位数填补•分类变量不需要填补,单算一类即可,或者用众数填补–缺失值在20%-80%•填补...
2018-06-20 12:08:38 448
原创 10天Hadoop快速突击(4)——MapReduce工作机制
MapReduce工作机制一、MapReduce作业的执行流程1.MapReduce任务执行总流程一个MapReduce作业的执行流程是:代码编写->作业配置->作业提交->Map任务的分配和执行->处理中间结果->Reduce任务的分配和执行->作业完成,而在每个任务的执行过程中,又包含输入准备->任务执行->输出结果。具体MapReduce作业详...
2018-06-18 19:44:23 632
原创 10天Hadoop快速突击(4)——MapReduce应用案例
开发MapReduce应用程序一、单词计数1.实例描述 计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。 比如,输出一个文本文件,内容如下: hello world hello hadoop hello mapreduce 对应上面给出的输入样例,其输出样例为: hadoop ...
2018-06-16 18:35:50 717
原创 10天Hadoop快速突击(3)——开发MapReduce应用程序
开发MapReduce应用程序一、系统参数的配置1.通过API对相关组件的参数进行配置这些API被分成了一下几个部分:org.apache.hadoop.conf:定义了系统参数的配置文件处理APIorg.apache.hadoop.fs:定义了抽象的文件系统APIorg.apache.hadoop.dfs:Hadoop分布式文件系统(HDFS)模块的实现org.apache.hadoop.map...
2018-06-10 12:07:49 2085
原创 基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置
基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置一、配置JDK环境下载jdk安装包jdk-8u172-linux-x64.tar.gz解压安装包,并将其放在指定位置ubuntu@VM-54-14-ubuntu:~/downloads$ tar -zxvf jdk-8u172-linux-x64.tar.gzubuntu@VM-54-14-ubuntu:~/do...
2018-06-07 01:04:02 1412
原创 R语言数据可视化教程(ggplot2)_数据塑形
# 15 数据塑型# 在将数据转化为图形之前,需要对数据进行清理然后重新组织数据的结构# R中的数据集常以数据框的形式存在。它们都是点形的二维数据结构,每行代表一个具体对象(case),每列代表一个描述对象的变量。# 数据框本质上是由向量和因子组成的列表,其中每个向量或因子代表了数据的一列library(gcookbook)heightweightstr(heightweight)# 因子和字符型...
2018-06-01 23:47:46 4565 1
原创 R语言数据可视化教程(ggplot2)_输入图形以展示
# 第14章 输出图形用以展示# 一般而言,数据可视化为两个目标服务:发现和沟通。# 14.1 输出为PDF矢量文件# 有两种方法输出PDF文件。一种方法是,使用pdf()打开图形设备,绘制图形,然后使用dev.off()关闭图形设备。这种方法适用于R中的大多数图形,包括基础图形和基于网格的图形# width(宽度)和height(高度)的单位为英寸library(ggplot2)pdf("3dp...
2018-06-01 23:46:24 5000 1
原创 R语言数据可视化教程(ggplot2)_其他图形
# 13.其他图形# 13.1 绘制相关矩阵图mtcarsmcor <- cor(mtcars)# 输出mcor,保留两位小数round(mcor,digits = 2)# 如果数据含有不能用来计算系统的任何列,应该先将这些列剔除。# 如果在原始数据中存在缺失值(NA),得到的相关矩阵中也会有缺失值。# 可以使用函数选项use="complete.obs"或者use="pairwise.co...
2018-06-01 23:44:27 6304 1
The brief introduction of diffusion model and stable diffusion
2023-04-14
转录调控中的非编码RNAs,以及肿瘤细胞中氨基酸代谢调控PPT
2022-11-06
集成学习原理与应用介绍(随机森林)
2022-11-06
桥区通航风险问题分析与案例研究
2022-10-28
DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER?
2022-10-28
Deep Facial Non-Rigid Multi-View Stereo
2022-10-28
为旅游交通服务的电池充电桩
2022-10-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人