- 博客(32)
- 资源 (16)
- 收藏
- 关注
原创 【ImageMagick 】-ImageMagick的安装和使用
安装JPEG支持1.获取JPEG库包。从网上下载JPEG库包,地址为:http://www.ijg.org/files/ 或使用2.使用root用户,将该包上传并解压缩。tar -zvxf jpegsrc.v8.tar.gz3.安装JPEG。cd jpeg*/./configure --enable-shared --enable-static ;make ;
2015-04-05 19:27:20 3264
原创 100303- ZooKeeper 配置管理代码实现案例
一、ZooKeeper的配置管理( Configuration Management)使用场景配置的管理在分布式应用环境中很常见,例如同一个应用系统需要多台 PC Server 运行,但是它们运行的应用系统的某些配置项是相同的,如果要修改这些相同的配置项,那么就必须同时修改每台运行这个应用系统的 PC Server,这样非常麻烦而且容易出错。像这样的配置信息完全可以交给 Zookeep
2015-04-05 19:19:49 2392 1
原创 100302- ZooKeeper详解
一、启动并验证ZooKeeper1、启动ZooKeeper[hadoop@cloud05 bin]$ ./zkServer.sh start[hadoop@cloud06 bin]$ ./zkServer.sh start[hadoop@cloud07 bin]$ ./zkServer.sh start2、验证ZooKeeper是否正常启动[hadoop@cloud
2015-04-05 19:18:57 986
原创 100301- ZooKeeper 基本概念介绍
ZooKeeper目录ZooKeeper详解 Client开发(Java)场景案例开发ZK集群WEB界面WEB监控一、ZK体系结构1、Server端具有fast fail特性,无单点故障。采用Leader/Follower模式,采用文件系统目录树型结构。例如:/NameService/aa,该节点即时目录和文件,通过路径作为一个唯一标识。该节点及时目录又是文
2015-04-05 19:17:08 767
原创 【hadoop】5004- Hadoop2.x 机制原理
一、Hadoop1.x 架构以及存在的问题参考文章: http://younglibin.iteye.com/blog/1921385二、Hadoop2.x HA架构以及优点1、在每一个NN上启动了DFSZKFailoverController来监听本地NN的运行状态,以便做出相应的判断处理2、zookeeper就算为了实现一个分
2015-04-05 19:15:24 1206
原创 【hadoop】5003- ZooKeeper 整体概况介绍
一、什么是Zookeeper?Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等二、为什么使用Zookeeper?(1)大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任
2015-04-05 19:13:49 642
原创 【hadoop】5001- 搭建分布式集群节点规划
7台节点参考配置hadoop2.x (HA: 高可用)主机名IP地址进程cloud01192.168.2.31namenodezkfc cloud02192.168.2.32namenodezkfc cloud031
2015-04-05 19:08:17 2054
原创 【hadoop】 4005-如何使用MR统计两个文本信息
一、需求场景 两个文件product.txt ,order.txt 分别存放商品信息和订单信息,其中product.txt 内容为商品编码 商品名称AK000 裤子 AK001 衬衣AK002 外套AK004 皮鞋AK005 衣服其中order.txt 内容为商品编码 订单交易编码AK000
2015-04-05 19:07:08 813
原创 【hadoop】 4004-Hadoop-2.4.1 版本中map任务待处理split大小的计算方法
一、MR如何计算splitSize,详见示意图二、MR如何对小文件进行优化1、文件上传HDFS前对小文件进行预处理,然后在上传HDFS (sequenceFile,可以对文件进行压缩,压缩后的文件可以直接通过FileInputFormat读取,无需解压)2、若小文件已经上传hdfs上,可以通过配置文件调整split,让多个block形成一个split
2015-04-05 19:06:07 812
原创 【hadoop】 4003-Hadoop计算中的Shuffle过程
shuffle过程示意图解读示意图内容基本概念1、Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程。Map阶段1、每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spil
2015-04-05 19:03:57 689
原创 【hadoop】 4002-Combiner组件
一、引入Combiner的场景1、引入Combiner的原因每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。2、Combiner的适用场景比如说在汇总统计时,就可以使用Combiner,但是在求平均数的时候就是
2015-04-05 18:53:00 608
原创 【hadoop】 4001-Partitioner编程
MapReduce 重要组件——Partitioner组件(1)Partitioner组件可以让Map对Key进行分区,从而可以根据不同的key来分发到不同的reduce中去处理;(2)你可以自定义key的一个分发股则,如数据文件包含不同的省份,而输出的要求是每个省份输出一个文件;(3)提供了一个默认的HashPartitioner自定义Partitioner:
2015-04-05 18:51:49 577
原创 【hadoop】 3007-hadoop的提交job的源码分析
客户端提交job给MR的集群执行过程2.1、连接ResourceManager,通过执行Job中connect()来完成第一步:在job中执行this.cluster = new Cluster();执行结果返回job第二步:在Cluster类中ClientProtocol client = null; 引用。获取client = new YARNRunner(
2015-04-03 22:55:23 654
原创 【hadoop】 3006-hadoop对象序列化排序
目录1、原文本文件进行统计,暂不考虑排序功能2、对统计结果统计后,然后考虑排序(由于MapReduce框架中的suffle阶段 自动按照k进行的排序,故可以自定义对象,完成排序操作)一、参考3006,对统计的结果进行排序,排序内容[hadoop@cloud01 ~]$ hadoop fs -cat /flow/output/part-r-000001380013800
2015-04-03 22:50:47 667
原创 【hadoop】 3005-hadoop对象序列化编码
一、hadoop序列化操作 Writable接口, 是根据 DataInput 和 DataOutput 实现的简单、有效的序列化对象MR的任意Key和Value必须实现Writable接口.MR的任意key必须实现WritableComparable接口二、自定义Writable,实现MapReduce程序
2015-04-03 22:47:48 576
原创 【hadoop】 3004-hadoop序列化机制思想
一、序列化在分布式环境的两大作用1、进程间通信2、永久存储二、Hadoop节点通信1、Java的序列化2、hadoop的序列化传输方式同Java传输一致,由于hadoop仅仅是数据传输,不需要把继承的内容传输过去
2015-04-03 22:44:59 509
原创 【hadoop】 3003-mapreduce任务的提交
一、通过Eclipse下本地运行可以参考 【hadoop】 3002-mapreduce程序统计单词个数示例 章节的演示二、集群方式通过jar包形式运行1、处理数据的作业达成jar包并上传hdfs[hadoop@cloud01 HDFSdemo]$ pwd/home/hadoop/workspace/HDFSdemo[hadoop@cloud01
2015-04-03 22:43:51 1145
原创 【hadoop】 3002-mapreduce程序统计单词个数示例
一、新建文本文件wordcount.txt,并上传至hdfs服务器上[hadoop@cloud01 HDFSdemo]$ hadoop fs -cat /wc/wordcount.txthello worldhello Chinahello wenjiehello USAhello Chinahello Chinahello Japan[hadoop@c
2015-04-03 22:40:43 1516
原创 【hadoop】 3001-mapreduce并发框架思想
简述:MapReduce是什么?1、MapReduce工作机制 它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。 MapReduce的主体是两个函数Map()和Reduce(),Map负责清洗数据,Reduce负责数据分析并输出最终结果,而且这两个功能之间并非一对一的关系,可以
2015-04-03 22:37:14 991
原创 【hadoop】 2007-远程debug
一、在hadoop调试过程,如何调试服务端代码,可以采用远程DEBUG模式进行1、服务器端启动脚本配置debug启动参数2、执行服务端启动脚本3、通过Eclipse来远程调试服务二、hadoop远程调试JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使
2015-04-03 22:31:38 686
原创 【hadoop】 2006-hdfs源码分析下载初始化、下载过程
一、命令行模式上传 文件1、查看要上传文件的大小 [hadoop@cloud01 ~]$ ll -h jdk-7u65-linux-i586.tar.gz-rw-rw-r--. 1 hadoop hadoop 137M Jul 18 2014 jdk-7u65-linux-i586.tar.gz2、执行上传文件[hadoop@cloud01 ~]$ hadoop fs -
2015-04-03 22:25:44 821
原创 【hadoop】 2005-RPC协议
1、RPC: 远程调用协议。不同进程之间的远程方法调用。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,客户端调用进程接收答复信
2015-04-03 22:23:12 531
原创 【hadoop】 2004-hdfs datanode容错
DataNode 每隔一段时间向NameNode回报信息。通过心跳机制(RPC机制)通信,如果 dfs.replication 3 其中当一个节点宕机后,NameNode会让DataNode水平复制数据块到其他DataNode节点,以确保数据安全,从而实现了HDFS中DataNode容错能力。
2015-04-03 22:21:42 1056
原创 【hadoop】 2003-hdfs的java接口
一、下载Eclipse版本http://www.eclipse.org/downloads/?osType=linux二、Linux下安装Eclipse1、上传eclipse通过xshell工具上传eclipse-jee-luna-SR1a-linux-gtk.tar.gz 文件到指定目录2、解压 eclipse-jee-luna-SR1a-linux-gt
2015-04-03 22:20:22 1989
原创 【hadoop】 2002-数据同步流程
NameNode概念1、是整个文件系统的管理节点。维护整个文件系统的文件目录书u,文件/目录的元数据和每个文件的对应的数据块列表。接收用户的操作请求。2、文件包括2.1 fsimage : 元数据镜像文件。存储某一时间段NameNode内存元数据信息2.2 edits : 操作日志文件2.3 fstime: 保持最近一次checkpoint的时间
2015-04-03 22:16:21 1029
原创 【hadoop】 2001-hdfs原理
HDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行 CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些 DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端通过同NameNode和DataNod
2015-04-03 22:16:17 657
原创 【hadoop】 1009-hdfs的shell命令
本章重点讲解hdfs shell :通过shell命令操作hdfs从以下三点说明一下hdfs shell即可1、hdfs2、hdfs dfs3、hdfs dfs -help hdfsshell命令[hadoop@cloud01 hadoop-2.4.1]$ hdfshadoop@cloud01 hadoop-2.4.1]$ hdfs dfs[
2015-04-03 22:13:56 1211
原创 【hadoop】 1008-使用64位Linux编译hadoop2.2.0
使用64位Linux编译hadoop2.2.0查看服务器的版本[hadoop@cloud01 hadoop]$ more /proc/version Linux version 2.6.32-358.el6.i686 (mockbuild@c6b8.bsys.dev.centos.org) (gcc version 4.4.7 20120313 (Red Hat 4
2015-04-03 22:12:03 534
pytorch-flask-api.zip
2019-08-26
word2vec-sentiments-IMDB-Data.zip
2019-07-26
tachyon 介绍
2016-02-18
CDH的安装和使用
2015-12-08
solr搜索引擎-课程文件培训
2014-02-20
solr企业级搜索引擎准备阶段
2013-11-19
积分商城基于Solr搜索引擎PPT
2013-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人