自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Johnmay--Blog

万丈红尘三杯酒,千秋大业一壶茶

  • 博客(24)
  • 问答 (1)
  • 收藏
  • 关注

转载 MapReduce计数器

1、MapReduce计数器是什么?  计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。2、MapReduce计数器能做什么?  MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapRedu

2016-11-26 23:14:38 371

转载 hadoop笔记1-MR执行过程

MR执行过程包括Map、Shuffler、Reduce,其中Map、Reduce及Shuffler中的分区、合并、排序是可以允许程序员编程参与的。1、Map阶段。split-----map----partition sort and spill to disk------combine。1)split的目的是应一个原始文件分成多个文件,分别交由不同的map节点处理,文件块大小由bl

2016-11-26 23:13:42 599

转载 HDFS中高可用性HA的讲解

HDFS Using QJM  HA使用的是分布式的日志管理方式一:概述1.背景  如果namenode出现问题,整个HDFS集群将不能使用。  是不是可以有两个namenode呢    一个为对外服务->active    一个处于待机->standby    他们的之间共享的元数据交 nameservice 2.HDFS HA的几大中重点  1)保证

2016-11-26 23:12:37 1216

转载 Map阶段分析之Spill阶段

标签:    如上次分析,其实map函数中的context.write()调用过程如下所示:    梳理下调用过程,context的write方法其实是调用了TaskInputOutputContext类的write方法,而在这个write方法内部又调用了output字段的write方法,这个output字段是NewOutputCollector类的一个对象,自然就回到了NewOutp

2016-11-26 23:11:33 1769

转载 Mapreduce中Combiner的使用及误区

问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。    在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这

2016-11-26 23:08:55 418

转载 hive内部表与外部表区别详细介绍

问题导读:1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的?6.磁盘,hdfs,hive表他们之间的过程是什么样子的?

2016-11-26 22:30:13 280

转载 Hadoop HA的理解

版权声明:本文为博主原创文章,未经博主允许不得转载。最近在自学Hadoop,看了很多网上的博客,很多人都提到了HA,但是具体的HA是怎么一回事,他指的是什么,我们为什么要考虑这个呢?下面我就谈谈我个人对HA的理解。 HA(High Available)就是高可用性,我们学习分布式集群框架,经常的会考虑这个问题,那么Hadoop也是不可避免的,而Hadoop的HA具体是什么引起的

2016-11-26 22:27:07 310

转载 深入理解Hadoop YARN中的Container概念

在学习Hadoop  YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源,还是仅仅是一个任务处理进程?本文将尝试介绍Container这一概念。在学习C

2016-11-26 22:25:47 1873

转载 详述执行map reduce 程序的步骤(本地执行MR、服务器上执行MR)

MR程序的执行环境有两种:本地测试环境、服务器环境。    1、本地环境执行MR程序的步骤:      (1)在windows下配置Hadoop的环境变量      (2)拷贝debug工具(winutils)到HADOOP_HOME/bin      (3)从源码中拷贝org.apache.hadoop.io.nativeio.NativeIO.Java到我们的mr的src目录下

2016-11-26 22:13:10 1079

转载 Hadoop 入门2、简要介绍Hadoop的各个主要模块(概念层次)

Hadoop 入门二、简要介绍Hadoop的各个主要模块(概念层次)先从概念层次介绍下Hadoop的各个组件,下一部分会深入Hadoop的每个组件,并从实战层次讲解。一、Hadoop构造模块     运行Hadoop的意思其实就是运行一组守护进程(daemons),每个进程都有各自的角色,有的仅运行在单个服务器上,有的则运行在集群多个服务器上,它们包括:NameNodeSe

2016-11-26 21:59:34 5943

转载 Java基础——成员变量、局部变量和静态变量的区别

之前在刚开始学习Java的时候,就谈了谈Java基础中的变量,虽然知道这货以后会经常用到,但没想到了基本语法这里,竟然有冒出来了成员变量、局部变量和静态变量。变来变去太容易让人搞晕了,挑拣出来梳理一下喽!       要想区分这哥仨,首先,我们得知道它们分别是什么。先从成员变量下刀。成员变量       我们来研究一个事物:               属性:外在特征;例如人的身高

2016-11-26 21:57:19 167

转载 Zookeeper-Zookeeper可以干什么

在Zookeeper的官网上有这么一句话:ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. 这大概描述了Zookeeper主要可以干哪些

2016-11-24 10:59:47 249

转载 Hadoop集群(第6期)_WordCount运行详解

1、MapReduce理论简介 1.1 MapReduce编程模型  MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。  在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;

2016-11-24 10:55:00 257

转载 Kafka+Storm+HDFS整合实践

在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时计算,一般情况下,我们都希望将离线和实时计算的数据源的集合统一起来作为输入,然后将数据的流向分别经由实

2016-11-24 10:47:38 247

翻译 ps搞定“网上报名要求照片在20k以内”【图文】

【导语】现在很多网上报名都需要照片,有120*160的像素,20k以内的。很多童鞋,为此发愁。特别是尺寸120*160可以了,内存大于20k,或者画面不清晰了。 (小编经过亲自实践,这里用的是ps6) 1、打开ps文件——新建——输入120像素,160像素——点击“好” 2、打开需要处理的图片3、修改所要处理的图片尺寸点击“图象”——“图象大小”——修改里面的数据宽度为120像素就行,高不用问

2016-11-23 20:04:16 4355

转载 怎么去除pdf文件中的加密

有一些pdf文件,出于对文件的版权及其他考虑进行了加密,有的不能打印,有的不能复制……我们想要利用这个文件里面的内容作为它用就受到了限制,那我们怎么办呢?那我就来说一下我的方法,和大家交流一下经验。工具/原料 PDF.winDecrypt 虚拟打印机 TinyPDF方法一1、这是一个带有加密的pdf文件,本来打算给大家弄一个加密后不能打印的文件做教程的,但是我找不到那个文件了,那就用这个吧。我们

2016-11-23 10:46:40 6521

转载 MySQL 5.7.13-winx64.zip安装笔记

MySQL—— 1、PC环境:windows7 64位1.去MySQL官网下载MySQLhttp://dev.mysql.com/downloads/mysql/抱歉,英文太水了,使用了Google翻译.点击[MySQL社区下载]链接【1.png】 【2.png】2.解压ZIP的安装包1.我

2016-11-12 17:54:31 370

转载 【MySQL】——发生系统错误2

MySQL—— 最近项目的需要,重装系统后,需要安装MySQL数据库。根据上次的经验(MySQL—服务无法启动),一步一步的安装,但是到了最后,还是遇到了问题。启动MySQL服务的时候,提示“发生系统错误 2,系统找不到指定的文件”。     上次遇到这个问题的时候,已经找到方法解决了。但是这次,根据上次的经验,所有的方法都试了一遍,还是不行。最后,法宝(重启电脑)都用上了

2016-11-12 17:52:37 3776 2

转载 Mysql net start mysql启动,提示发生系统错误 5 拒绝访问 解决之道

MySQL——为什么会出现这个问题呢?经过一番思考找到原因了,是因为当前用户的操作权限太低了,出了问题出错问题截屏如下:解决问题方法如下:在dos下运行net  start MySQL 不能启动mysql!提示发生系统错误 5;拒绝访问!切换到管理员模式就可以启动了。所以我们要以管理员身份来运行cmd程序来启动mysql。那么如何用管理员身份来运行c

2016-11-12 17:49:02 433

转载 学学怎么提高你的网速

电脑得下载速度感觉一直达不到宽带的理论网速,这一方面是跟区域使用情况有关,其实有一个隐藏的设置大家也没设置好。如果按照下面的方法来做,网速会有明显提升,尤其在相同环境下下载同样东西,小编亲测有效果其实很多电脑默认的设置都是限制保留宽带20%,那如何不然它保留网络呢?下面为大家介绍如何设置,我以我的WIN7系统为例1、打开开始菜单,查找“运行”,点击运行2.点击运行搜索栏,在里面输入

2016-11-10 12:48:00 371

转载 深度学习算法的几个难点 | 36大数据

本文非笔者所为,转载请注明来自36大数据(36dsj.com):36大数据 ?深度学习算法的几个难点1、局部最优问题。深度学习算法的目标函数,几乎全都是非凸的。而目前寻找最优解的方法,都是基于梯度下降的。稍微有点背景知识的人都知道,梯度下降方法是解决不了非凸问题的。因此,如果找到最优解,将是深度学习领域,非常值得研究的课题。andrew在google的工作,也就是那

2016-11-08 15:22:41 2608

转载 linux中查看文件和目录的命令是什么

1.列出文件清单命令:lsls命令能够列出当前目录下的所有内容。ls 命令的执行方式为:# ls [-选项] [文件名或者目录名]进入到Linux命令行中后,我们至少要知道当前所处的位置有哪些内容,这些信息就可以使用ls命令来获得。在Linux中,ls命令是最常使用的命令之一,因为在命令行下要随时查看目录内容。如果不加任何选项的话,ls命令仅列出当前目录下的文件和目录名,例如,想要查看

2016-11-08 15:17:55 35068

原创 CentOS下如何查看并杀死僵尸进程及kill后出现问题的解决办法

原版来源:opsers.org 作者:羽飞博客 转载网址:http://www.centoscn.com/CentOS/Intermediate/2014/1107/4084.html 昨天服务器到期,之前的服务器由于空间小,不能满足现在的服务要求,就新购买了一个服务器,目前正在调试安装中!在调试过程中,发现系统中有很多僵尸进程,现在就是找出这些僵尸进程,并将其杀死。用top查看系统中的僵尸

2016-11-04 12:47:56 5543 3

原创 storm集群基础+部署

Storm集群部署1前期准备工作: 1、打开虚拟机ifconfig查看ip [root@master Desktop]# ifconfig eth0 Link encap:Ethernet HWaddr 00:0C:29:14:38:86 inet addr:192.168.110.128 Bcast:192.168.110.255 Mask:255.255.255.0

2016-11-03 22:55:46 325 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除