hadoop
文章平均质量分 50
我不是李寻欢
百转千折落人间,身披绶带赛玉泉;
婀娜生姿门前客,飞驰化做林中仙.
展开
-
hadoop配置相关
core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://earth</value> <final>true</final> </property> &...原创 2020-01-03 15:33:42 · 402 阅读 · 0 评论 -
MapReducer优化
如何做一个健壮强的mapreduce程序?相信每个程序员在编程时都会问自己两个问题“我如何完成这个任务”,以及“怎么能让程序运行得更快”。同样,MapReduce计算模型的多次优化也是为了更好地解答这两个问题。MapReduce计算模型的优化主要集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化。这其中,又包含七个方面的内容。hadoop参数调优:http:/原创 2017-07-31 18:38:15 · 2248 阅读 · 0 评论 -
hadoop伪分布式布置安装
配置伪分布Hadoop 解压安装hadoop 【不要用root权限】 $ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/1.配置hadoop的java环境支持, ${HADOOP_HOME}/etc/hadoop目录下 hadoop-env.sh mapred-env.sh yarn-env.sh export JAVA_HOME=/o原创 2017-07-23 10:48:53 · 220 阅读 · 0 评论 -
HDFS namenode 和 datanode功能
namenode 和 datanode功能 【namenode】 接收用户操作请求 维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系 namenode管理:namenode支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 块存储管理 在整个HDFS集群中有且只有唯一一个处于active状态namenode节点,原创 2017-07-24 19:29:48 · 9876 阅读 · 0 评论 -
HDFS的特点
优点: 1)处理超大文件 这里的超大文件通常是指百MB、数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。2)流式的访问数据* HDFS的设计建立在更多地响应”一次写入、多次读取”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部分数据,原创 2017-07-24 19:31:42 · 2400 阅读 · 0 评论 -
搭建Linux环境的Java开发(Eclipse + maven)
1.Java 安装 配置环境变量 2.Maven 管理工程,管理依赖包(jar包) 1)上传并解压apache-maven安装包 $ tar -zxf apache-maven-3.0.5-bin.tar.gz -C ../modules/ 2)配置环境变量 vi /etc/profile # MAVEN_HO原创 2017-07-24 19:35:09 · 333 阅读 · 0 评论 -
Windows下Eclispe远程开发Mapreduce程序
1.安装插件(方便管理mapreduce文件) 1).将hadoop-eclipse-plugin-2.6.0.jar 拷贝到${MyEclispe_HOME} /plugins 2).打开MyEclispe,菜单栏->windows->Preferneces->Hadoop MapReduce2.Windows安装hadoop 1)解压hadoop-2.5.0.tar原创 2017-07-24 19:42:36 · 237 阅读 · 0 评论 -
hadoop集群balance工具详解
在线上的hadoop集群运行过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题和部分DataNode占用cpu使用率较高。1) hadoop balance参数的用法:start:bin/start-balancer.sh [-threshold ] bin/ sta原创 2017-08-09 18:29:50 · 635 阅读 · 0 评论 -
mapReduce中重要参数调优
现在我们来假设一个集群有一个namenode以及8个datanode,这是一个很客观的集群。我们假设上面的数据都是三备份,那么本地数据率为3/8。首先数据要进行map,然后merge,然后reduce进程进行copy,最后进行reduce,其中的merge和copy总称可以为shuffle。在你起一个job前,hadoop需要知道你要启动多少个map,多少个renduce进程,如果你进行默认参数启原创 2017-08-09 20:08:52 · 765 阅读 · 0 评论 -
hdfs完全分布式的安装
完全分布式的安装 1、集群规划 组件 PC1 PC2 PC3HDFS Namenode Secondary原创 2017-07-26 18:18:04 · 702 阅读 · 0 评论 -
Yarn的运行原理(执行流程)
1.client向yarn提交job,首先找ResourceManager分配资源,2.ResourceManager开启一个Container,在Container中运行一个Application manager3.Application manager找一台nodemanager启动Application master,计算任务所需的计算4.Application master向A原创 2017-07-28 08:49:24 · 3895 阅读 · 0 评论 -
mapReduce中的shuffle过程
从map()的输出到reduce()的输入,中间的过程被称为shuffle过程。map side1.在写入磁盘之前,会先写入环形缓冲区(circular memory buffer),默认100M(mapreduce.task.io.sort.mb可修改),当缓冲区内容达到80M(mapreduce.map.sort.spill.percent可修改),缓冲区内容会被溢写到磁盘,形成一原创 2017-07-28 08:53:32 · 457 阅读 · 0 评论 -
程序员必知的8大排序
前几天,看到一篇前辈的博文“程序员必知的8大排序”,不禁的手痒起来,重新翻开严蔚敏老师的《数据结构》复习了一遍,然后一一的用Java去实现,其中有不足之处, 先来看看8种排序之间的关系: 1, 直接插入排序 (1)基本思想:在要排序的一组数中,假设前面(n-1) [n>=2] 个数已经是排好顺序的,现在要把第n个数插到前面的有序数中,使转载 2017-07-28 09:26:27 · 339 阅读 · 0 评论 -
linux系统安装及简单命令介绍
一、简单的命令1.GUN/GPL GUN/Linux Linu内核 发行版2.基础命令lsls -l 或者 llls -acd 绝对路径 / 相对路径 回到上一级或者打开下一级目录用户主目录 /home/username ~ cd pwdsu - 3.目录和文件的指令增: mkdir mkdir -p touch vi原创 2017-07-19 08:52:03 · 502 阅读 · 0 评论 -
linux系统简介及命令简介
一、Linux基本概念1.本门课程的定位a.企业环境中使用的服务器操作系统基本就是Linux系统b.大数据集群也是搭建在Linxu系统之上2.Linux内核Linux是一个一体化内核(monolithic kernel)系统。“内核”指的是一个提供硬件抽象层、磁盘及文件系统控制、多任务等功能的系统软件。一个内核不是一套完整的操作系统。一套基于Linux内核的完整操作系统叫作原创 2017-07-19 08:49:29 · 335 阅读 · 0 评论 -
Hadoop 2.6.3动态增加/删除DataNode节点
Hadoop版本为:2.6.3一、动态增加DataNode1、准备新的DataNode节点机器,配置SSH互信,可以直接复制已有DataNode中.ssh目录中的authorized_keys和id_rsa2、复制Hadoop运行目录、hdfs目录及tmp目录至新的DataNode3、在新DataNode上启动hadoop..sbin/hadoop-daemon.sh start datanode转载 2017-10-28 07:11:02 · 408 阅读 · 0 评论 -
Namenode HA原理详解
Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 一、为什么要Namenode HA?1. NameNode High Availability即高可用。2. NameNode 很重要,挂掉会导致存储停止服务,无法进行数据的读写,转载 2017-10-21 22:54:37 · 363 阅读 · 0 评论 -
Zookeeper常用命令
ZooKeeper服务命令: 在准备好相应的配置之后,可以直接通过zkServer.sh 这个脚本进行服务的相关操作1. 启动ZK服务: sh bin/zkServer.sh start2. 查看ZK服务状态: sh bin/zkServer.sh status3. 停止ZK服务: sh bin/zkServer.sh stop4. 重启ZK服务:转载 2017-07-31 20:57:11 · 231 阅读 · 0 评论 -
mapreduce二次排序案例
为什么需要二次排序?在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序:解决思路:我们可以把key和value联合起来作为新的key,记作newkey。这时,newkey含有两个字段,假设分别是k,v。这里的k和v是原来的ke原创 2017-07-31 19:53:53 · 3179 阅读 · 3 评论 -
hadoop参数调优
hadoop优化相关:1:对操作系统进行参数调优(1):打开文件描述符和网络连接参数上限(具体操作内容:使用ulimit命令讲允许同时打开的文件描述符数据上限增大至一个合适的值,同时调整内核参数net.core.somaxconn)(2):关闭swap分区(具体操作内容是/etc/stsctl.conf中得vm.vm.swappiness参数)(3):设置合理的预读取缓冲区大小(具转载 2017-07-31 19:24:45 · 465 阅读 · 0 评论 -
shell 中的if奇葩语句
if 语句第一种语法格式:if 条件判断 then commandfieg.#!/bin/shif test 3 -eq 3thenecho Yesfi第二种语法格式:if 条件判断then commandeslecommandfieg.#!/bin/shif [ -d /home/user01原创 2017-07-20 21:20:54 · 481 阅读 · 0 评论 -
shell 中函数function()
Shell函数类似于Shell脚本,里面存放了一系列的指令,不过Shell的函数存在于内存,而不是硬盘文件,所以速度很快,另外,Shell还能对函数进行预处理,所以函数的启动比脚本更快。1、函数定义function 函数名() { 语句 [return]} 关键字function表示定义一个函数,可以省略,其后是函数名,有时函数名后可以跟一个括号原创 2017-07-20 21:26:34 · 8704 阅读 · 0 评论 -
shell 中的日期date格式化
date 命令一)显示系统时间1.date CST中央标准时间Mon Jun 5 15:11:44 CST 20172.date -R 带时区的时间Mon, 05 Jun 2017 15:14:44 +0800二)格式化日期$ date '+%Y-%m-%d %H:%M'2017-05-02 11:20$ date '+%Y/原创 2017-07-20 21:27:32 · 18088 阅读 · 0 评论 -
shell 中的crontab
Crontab计划任务-->周期性执行计划任务选项使用:crontab -l (list ) #查看目前的计划任务列表crontab -r (remove) #删除计划任务crontab -e (eidt) #编辑周期性计划任务进程名称是crondps -ef | grep crond $查看此进程是否开启默认进程是开启的,如原创 2017-07-20 21:29:31 · 263 阅读 · 0 评论 -
vim 一些快捷使用技巧
vi快捷方式显示行号: set nu,进入最后行模式使用光标快速移动到第一行,小写gg, 命令模式使用光标快速移动到最后一行,大写G, 命令模式使用删除一行,小写dd,(带有剪切功能)命令模式使用粘贴一行,小写p,命令模式使用删除多行,小写dd,加上数字,比如三行就是3dd,命令模式使用撤销上一步的操作,小写u,命令行模式使用删除、拷贝命令在命令模式下原创 2017-07-20 21:30:49 · 168 阅读 · 0 评论 -
克隆虚拟机流程
克隆虚拟机1.关闭Linux系统2. 虚拟机--》快照管理器--克隆 虚拟机--》管理 --》克隆选择完整克隆而非克隆链接3.克隆出来的虚拟机 要修改主机名还有ip地址,关键是要修改网卡信息4. # vi /etc/hosts修改主机映射:个人的配置为:192.168.112.129 vampire# vi /etc/sysconfig原创 2017-07-19 14:43:53 · 539 阅读 · 0 评论 -
linux 解压缩功能
rpm命令1、centos主要管理包的方式2、rpm管理以rpm结尾的包3、挂载光驱# mount /dev/cdrom /media/【扩展】软件包的命名方式:zlib-devel-1.2.3-29.el6.x86_64.rpm软件名(zlib) 版本类型(devel:开发版 ;client:客户端)版本号(1.2.3) 发行号(29.el6) 硬件原创 2017-07-19 20:16:13 · 298 阅读 · 0 评论 -
linux 查看防火墙是否开启
1 首先使用service iptables status查看iptables当前服务状态。2 a) 永久生效 开启: chkconfig iptables on 关闭: chkconfig iptables off b) 即时生效,重启后失效 开启: service iptables start 关闭: se原创 2017-07-19 20:23:33 · 2076 阅读 · 0 评论 -
linux 系统管理命令
系统管理命令1.top 查看系统资源 -->相当于任务管理器每隔3秒更新一次按q退出浏览状态2.free 查看内存信息 --》yuan 可能会用到选项:-m, 就是以MB格式显示3.df -l 查看硬盘分区信息 4.ps -ef 查看系统进程ps -ef | grep crondjps 查看系统正在运行的java进程5.kill 杀死正在进行原创 2017-07-19 20:25:53 · 207 阅读 · 0 评论 -
shell的变量
对于习惯于Java脚本的编译的我来说,只能说说Xshell的脚本编译实在是太诡异.竟然.不存在长度为零的空...环境变量保存系统运行时使用的变量用户变量.bash_profile 每个用户主目录下都有这么这个文件,用来保存每个用户的环境变量系统变量/etc/profile:系统全局生效的配置文件位置变量将传递给脚本的参数保存在位置变量中以便于在脚本中原创 2017-07-19 21:33:56 · 206 阅读 · 0 评论 -
Linux关闭selinux安全子系统
vi /etc/sysconfig/selinux 把里边的一行改为 SELINUX=disabled 改了之后记得保存喔。原创 2017-07-20 09:30:21 · 1098 阅读 · 0 评论 -
shell运算
第一种写法 $(( ))第二种写法 $ []第三种写法 expr 注意:在expr表达式中,必须添加空格如果:expr3+5 则报错如果:expr 3+5 则直接输出3+5注意:因为expr本身是一个shell命令,所以在输出的时候需要使用反引号(~,1,2,键的左边)注:expr 表达式只能接受数值1.算术运算echo $((原创 2017-07-20 09:31:56 · 568 阅读 · 0 评论 -
mapReducer的测试案例①
需求: 实现统计 每个手机号的 上行包 下行包 总包 案例资源和文件:http://pan.baidu.com/s/1eSMmpkm首先定义了一类接收数据处理过程中map阶段输出的value.package com.vampire.taobao; import java.io.DataInput;import java.io.DataOutput;imp原创 2017-07-30 15:28:02 · 298 阅读 · 0 评论 -
Hadoop Ha (High avilable)配置
为什么要配置HDFS HA? 首先:HDFS集群中NameNode 如果存在单点故障。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用.而影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用;二是计划内的NameNode节点软件或硬件升级,导致集群在短时间内原创 2017-07-30 10:40:39 · 514 阅读 · 0 评论 -
map任务split切片 reduce个数 partition
mapreduce(map和reduce个数) map任务split切片 reduce个数 partitionmap个数:由任务切片spilt决定的,默认情况下一个split的大小就是block由参与任务的文件个数决定的 number of splits:1对于大文件,一般选择split=block,如果split对于小文件,默认一个文件启动一个map,这样原创 2017-07-26 10:08:55 · 1976 阅读 · 0 评论 -
Namenode 联盟 联邦环境的搭建
为什么引入联盟框架 ?首先了解下hdfs的局限性@Namespace(命名空间)的限制由于Namenode在内存中存储所有的元数据(metadata),因此单个Namenode所能存储的对象(文件+块)数目受到Namenode所在JVM的heap size的限制。50G的heap能够存储20亿(200 million)个对象,这20亿个对象支持4000个datanode,1原创 2017-07-31 18:00:31 · 972 阅读 · 0 评论 -
zookeeper 完全分布式搭建
1.安装JDK(3台PC都要安装JDK)配置环境变量2.安装完全分布式集群1)安装zk2)配置zoo.cfg文件dataDir=/opt/modules/zookeeper-3.4.5/zkDataserver.1=hadoop.ibeifeng.com.cn01:2888:3888server.2=hadoop.ibeifeng.com.cn02:2888:3888原创 2017-07-29 15:09:04 · 426 阅读 · 0 评论