自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

转载 Go语言并发编程总结

微信公众号:Golang语言社区如有问题或建议,请公众号留言或者微信群、QQ群提问Golang :不要通过共享内存来通信,而应该通过通信来共享内存。这句风靡在Go社区的话,说的就是 goroutine中的 channel …….他在go并发编程中充当着 类型安全的管道作用。1、通过golang中的 goroutine 与sync.Mutex进行 并发同步import(    "fmt"    "...

2018-03-31 21:43:40 280

转载 MapReduce理解-深入理解MapReduce

前面的几篇博客主要介绍了Hadoop的存储HDFS,接下来几篇博客主要介绍Hadoop的计算框架MapReduce。本片博客主要讲解MapReduce框架的具体执行流程,以及shuffle过程,当然这方面的技术博客已经特别多而且都写得很优秀,我写本篇博客之前也有过相关阅读,受益匪浅。对一些博客和资料的参考都会才博客下方参考资料中列出。MapReduce理解MapRedeuce,我们可以把它分开来理...

2018-03-15 21:09:02 669

转载 [解决]Spark集群HA无法正常启动的问题

Spark集群HA无法正常启动的问题,master节点正常情况的状态为ALIVE与STANDBY,使用HA后通过zookeeper集群来确定master的ALIVE与STANDBY。今天,出现master节点一直处于RECOVERING,处理恢复状态,却不能正常启动。根据以往hadoop集群的经验,应该是zk管理master节点的问题解决方案为进行zk的客户端./zkCli.sh  查看目录ls ...

2018-03-13 21:59:15 1408

转载 Spark支持三种分布式部署方式

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一...

2018-03-12 00:02:59 5901 1

转载 【性能优化】Hive优化

1.概述  继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍  首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗...

2018-03-07 22:27:09 212

原创 mapreduce 实现内连接,左连接,右连接,全连接,反连接

数据集user(id name)用户表1 user12 user23 user34 user45 user56 user6post(userid postid postname)帖子表1 1 post11 2 post22 3 post34 4 post45 5 post58 6 post68 7 post78 8 post8package com.test;imp...

2018-03-06 16:50:11 406

转载 图解SQL的Join

原文地址:http://coolshell.cn/articles/3463.html对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章(实在不清楚为什么Coding Horror也被墙)通过 文氏图 Venn diagr...

2018-03-06 16:39:17 143

转载 时间序列数据的存储和计算 - 概述

转载:https://yq.aliyun.com/articles/104243摘要: 什么是时间序列数据   什么是时间序列(Time Series,以下简称时序)数据?从定义上来说,就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。什么是时间序列数据  什么是时间序列(Time Series,以...

2018-03-05 11:34:47 7766

原创 PIP源使用国内镜像,提升下载速度和安装成功率

国内源(新版ubuntu要求使用https源,要注意。):清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣:http://pypi.douban.com/simple/还有一些别的...

2018-03-02 14:27:04 1090

numpy.exe、scipy.exe

windows下numpy和scipy最简单的安装方法

2016-01-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除