自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小哲的博客

知识改变命运,技术成就梦想。不忘初心,继续前行!

  • 博客(13)
  • 资源 (2)
  • 收藏
  • 关注

转载 Spark性能优化指南——高级篇

Spark性能优化指南——高级篇原文链接:美团点评技术博客前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种...

2018-06-26 15:13:14 248

转载 Spark性能优化指南:基础篇

Spark性能优化指南——基础篇原文链接:美团点评技术博客前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark...

2018-06-26 15:11:00 208

转载 分布式消息系统:Kafka

分布式消息系统:KafkaKafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同...

2018-06-26 14:51:38 209

转载 详细探究Spark的shuffle实现

详细探究Spark的shuffle实现Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什...

2018-06-26 14:25:44 236

转载 Python数据预处理—归一化,标准化,正则化

Python数据预处理—归一化,标准化,正则化关于数据预处理的几个概念归一化 (Normalization):属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现。常用的最小最大规范化方法(x-min(x))/(max(x)-min(x))除了上述介绍的方法之外,另一种常用的方法是将属性缩放到一个指定的最大和最小值(通常是1-0...

2018-06-23 21:48:44 33740 1

转载 Python-数据清洗

python--数据清洗1.数据错误:错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• ‘0’ 代表真实的0,还是代表缺失– 数据不一致• 比如收入单位是万元,利润单位是元,或者一个单位是美元,一个是人民币– 数据重复2.缺失值处理:处理原则–缺失值少于20%•连续变量使用均值或中位数填补•分类变量不需要填补,单算一类即可,或者用众数填补–缺失值在20%-80%•填补...

2018-06-20 12:08:38 448

原创 10天Hadoop快速突击(4)——MapReduce工作机制

MapReduce工作机制一、MapReduce作业的执行流程1.MapReduce任务执行总流程一个MapReduce作业的执行流程是:代码编写->作业配置->作业提交->Map任务的分配和执行->处理中间结果->Reduce任务的分配和执行->作业完成,而在每个任务的执行过程中,又包含输入准备->任务执行->输出结果。具体MapReduce作业详...

2018-06-18 19:44:23 632

原创 10天Hadoop快速突击(4)——MapReduce应用案例

开发MapReduce应用程序一、单词计数1.实例描述    计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。    比如,输出一个文本文件,内容如下:    hello world    hello hadoop    hello mapreduce    对应上面给出的输入样例,其输出样例为:    hadoop        ...

2018-06-16 18:35:50 717

原创 10天Hadoop快速突击(3)——开发MapReduce应用程序

开发MapReduce应用程序一、系统参数的配置1.通过API对相关组件的参数进行配置这些API被分成了一下几个部分:org.apache.hadoop.conf:定义了系统参数的配置文件处理APIorg.apache.hadoop.fs:定义了抽象的文件系统APIorg.apache.hadoop.dfs:Hadoop分布式文件系统(HDFS)模块的实现org.apache.hadoop.map...

2018-06-10 12:07:49 2085

原创 基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置

基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置一、配置JDK环境下载jdk安装包jdk-8u172-linux-x64.tar.gz解压安装包,并将其放在指定位置ubuntu@VM-54-14-ubuntu:~/downloads$ tar -zxvf jdk-8u172-linux-x64.tar.gzubuntu@VM-54-14-ubuntu:~/do...

2018-06-07 01:04:02 1412

原创 R语言数据可视化教程(ggplot2)_数据塑形

# 15 数据塑型# 在将数据转化为图形之前,需要对数据进行清理然后重新组织数据的结构# R中的数据集常以数据框的形式存在。它们都是点形的二维数据结构,每行代表一个具体对象(case),每列代表一个描述对象的变量。# 数据框本质上是由向量和因子组成的列表,其中每个向量或因子代表了数据的一列library(gcookbook)heightweightstr(heightweight)# 因子和字符型...

2018-06-01 23:47:46 4565 1

原创 R语言数据可视化教程(ggplot2)_输入图形以展示

# 第14章 输出图形用以展示# 一般而言,数据可视化为两个目标服务:发现和沟通。# 14.1 输出为PDF矢量文件# 有两种方法输出PDF文件。一种方法是,使用pdf()打开图形设备,绘制图形,然后使用dev.off()关闭图形设备。这种方法适用于R中的大多数图形,包括基础图形和基于网格的图形# width(宽度)和height(高度)的单位为英寸library(ggplot2)pdf("3dp...

2018-06-01 23:46:24 5000 1

原创 R语言数据可视化教程(ggplot2)_其他图形

# 13.其他图形# 13.1 绘制相关矩阵图mtcarsmcor <- cor(mtcars)# 输出mcor,保留两位小数round(mcor,digits = 2)# 如果数据含有不能用来计算系统的任何列,应该先将这些列剔除。# 如果在原始数据中存在缺失值(NA),得到的相关矩阵中也会有缺失值。# 可以使用函数选项use="complete.obs"或者use="pairwise.co...

2018-06-01 23:44:27 6304 1

The brief introduction of diffusion model and stable diffusion

扩散模型的兴起可以被视为人工智能生成艺术领域最近取得突破的主要因素。而稳定扩散模型的发展使得我们可以通过一个文本提示轻松地创建美妙的艺术插图。 Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以我们也可以在自己的机器上运行它

2023-04-14

转录调控中的非编码RNAs,以及肿瘤细胞中氨基酸代谢调控PPT

Integrating Multi-Omics Data, Metabolic regulation of tumor cells

2022-11-06

集成学习原理与应用介绍(随机森林)

Random forest is a commonly-used machine learning algorithm, which combines the output of multiple decision trees to reach a single result.

2022-11-06

桥区通航风险问题分析与案例研究

近几年国内桥梁日渐增多、船舶趋于大型化、船舶通航密度增大等因素给船和桥带来了巨大的风险。桥区通航风险的研究显得尤为重要,为了防患于未然,提前进行预报,及时采取应对措施,提高船舶通航时安全性降低风险有重大意义。

2022-10-28

大数据项目之数据挖掘子系统设计

数据挖掘系统是辅助知识库管理人员及常规设计人员对进行知识检索、并不断扩充的知识库容量的应用端口。

2022-10-28

DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER?

DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER IN CHINA? EVIDENCE FROM FINANCING AND INVESTMENT CHOICES IN THE HIGH-TECH INDUSTRY

2022-10-28

Deep Facial Non-Rigid Multi-View Stereo

We present a method for 3D face reconstruction from multi-view images with different expressions. We formulate this problem from the perspective of non-rigid multi-view stereo (NRMVS).

2022-10-28

为旅游交通服务的电池充电桩

电动滑板车有助于减少旅游交通对环境的影响,但它们的行驶范围有限,并且使用受充电设施位置的影响。本研究使用整数规划来优化电池更换站的位置和数量。并对每个站点的服务容量进行敏感性分析。

2022-10-28

H3C全国网络技能大赛

2014年H3C全国网络技能大赛比赛大纲,为参加比赛的同学提供参考

2014-08-05

校园网IP地址规划

学习网络必备文档,学习学习校园网IP地址规划,理解IP意义

2014-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除