苍_狼-CSDN博客

原创 Hadoop生态系统--序言

对Hadoop生态系统学习及实践有很长一段时间了，最早接触Hadoop生态系统是在2010年年底，那时正在为公司一个项目研究搜索引擎，最后选定nutch搜索引擎作为研究对象，在研究nutch的过程中就与Hadoop结下了不解之缘。在实践hadoop过程中，遇到过很多问题，也迷茫过，不知道hadoop生态系统到底应用在那些业务场景中?不知道在众多的版本中到底采用哪个版本？不知道Hadoop生态系

2014-01-03 23:25:04 502

原创 CentOS 下编译Hadoop2.2.0 64位安装包总结

CentOS 下编译Hadoop2.2.0 64位安装包官网只提供二进制版本为32位版本，64位环境需要重新编译。1、JDK 安装http://download.oracle.com/otn-pub/java/jdk/7u45-b18/jdk-7u45-linux-x64.tar.gz# tar xvzf jdk-7u45-linux-x64.tar.gz -C /usr/loca

2014-06-10 22:22:12 824

原创 Linux下安装MySQL数据库

一、mysql简介说到数据库，我们大多想到的是关系型数据库，比如mysql、oracle、sqlserver等等，这些数据库软件在windows上安装都非常的方便，在Linux上如果要安装数据库，咱不得不首先推荐的是mysql数据库了，而且Mysql数据库的第一个版本就是发行在Linux系统上的。MySQL是一个关系型数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle公司

2014-01-21 16:43:52 593

原创 Hadoop配置文件说明

1、dfs.hosts 记录即将作为datanode加入集群的机器列表2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表4、master 记录运行辅助namenode的机器列表5、slave 记录运行datanode和tasktracker的机器

2014-01-20 09:18:34 534

原创 Hadoop常用端口配置

core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。常用的端口配置HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/

2014-01-20 09:16:38 619

原创 ntpd与ntpdate的区别

ntpd、ntpdate的区别使用之前得弄清楚一个问题，ntpd与ntpdate在更新时间时有什么区别。ntpd不仅仅是时间同步服务器，他还可以做客户端与标准时间服务器进行同步时间，而且是平滑同步，并非ntpdate立即同步，在生产环境中慎用ntpdate，也正如此两者不可同时运行。时钟的跃变，对于某些程序会导致很严重的问题。许多应用程序依赖连续的时钟——毕竟，这是一项常见的假定，即，取得

2014-01-16 21:27:31 696

原创 Linux中修改openfile大小(max open files/ulimit -n )

修改ulimit -n 的最大值，永久修改为655351.vim /etc/security/limits.conf 最后添加* soft nofile 65535 * hard nofile 65535 2.vim /etc/pam.d/login最后添加session required /lib/security/pam_limits.so

2014-01-16 21:22:27 2519

原创 Linux下卸载JDK

收集了一下Linux下卸载各种JDK的方法，希望对你有用。 1、卸载用 bin文件安装的JDK方法：删除/usr/java目录下的所有东西 2、卸载系统自带的jdk版本方法：查看自带的jdk： #rpm -qa | grep gcj 看到如下信息： libgcj-4.1.2-44.el5 java-1.4.

2014-01-16 18:21:36 451

原创 Linux cron命令详解

cron是一个linux下的定时执行工具，可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务，但它不自动起来，可以用以下的方法启动、关闭这个服务： /sbin/service crond start //启动服务 /sbin/service crond stop //关闭服务 /sbin/service crond restart //重启服务 /sbin

2014-01-16 12:27:07 701

原创 linux下修改主机名

修改主机名：1./etc/sysconfig/network内容：networking=yeshostname=Master.Hadoop //主机名(没有这行？那就添加这一行吧)gateway=192.168.1.12.运行命令：#hostname Master.Hadoop//lh为主机名3./etc/hosts内容：# do not remove

2014-01-14 11:01:53 495

Linux 系统是一个多用户多任务的分时操作系统，任何一个要使用系统资源的用户，都必须首先向系统管理员申请一个账号，然后以这个账号的身份进入系统。用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪，并控制他们对系统资源的访问；另一方面也可以帮助用户组织文件，并为用户提供安全性保护。每个用户账号都拥有一个惟一的用户名和各自的口令。用户在登录时键入正确的用户名和口令后，就能够进入系统和自己的主

2014-01-14 10:17:11 2127

原创 Ambari安装

Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向 Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。最近准备装ambari，于是，就根据官网进行了安装，下面是我推荐的正确的较完善的安装方式，希望对大家有所帮助。

2014-01-09 15:45:01 633

原创 iostat命令

Linux系统中的 iostat是I/O statistics（输入/输出统计）的缩写，iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况，同时也会汇报出CPU使用情况。同vmstat一样，iostat也有一个弱点，就是它不能对某个进程进行深入分析，仅对系统的整体情况进行分析。iostat属于sysstat软件包。可以用yum install sysstat 直接安装。

2014-01-09 15:19:52 492

原创 mount(挂载)命令使用

挂载的概念：当要使用某个设备时，例如要读取硬盘中的一个格式化好的分区、光盘或软件等设备时，必须先把这些设备对应到某个目录上，而这个目录就称为“挂载点（mount point）”，这样才可以读取这些设备，而这些对应的动作就是“挂载”。1、mount 指令格式： mount [-t 文件系统类型] [-o 参数] 设备名或卷标挂载点目录名注：如果使用

2014-01-09 15:09:37 491

原创 Linux系统调试命令总结

iostat,netstat,top,atop,htop,dstat 可以帮助了解硬盘，CPU，内存，网络的状态。这能帮你对系统正在发生的情况有个第一认识。free,vmstat 如果想了解内存的状态，这两个命令很重要。其中cached是Linux内核中文件缓存的大小。kill -3 在调试Java程序时，使用此命

2014-01-09 15:04:26 500

原创深入理解HDFS

1、HDFS架构 Namenode：一个hdfs cluster包含一个NameNode和若干的DataNode，NameNode是master，主要负责管理HDFS文件系统，具体地包括namespace管理(其实就是目录结构)，block管理(其中包括 filename->block，block->ddatanode list的对应关系)。Namenode提供的是始终被动接收服务的se

2014-01-06 23:24:31 530

转载从HDFS看分布式文件系统的设计需求

本文转载：http://dennis-zane.iteye.com/blog/228537 分布式文件系统的设计目标大概是这么几个：透明性、并发控制、可伸缩性、容错以及安全需求等。我想试试从这几个角度去观察HDFS的设计和实现，可以更清楚地看出HDFS的应用场景和设计理念。首先是透明性，如果按照开放分布式处理的标准确定就有8种透明性：访问的透明性、位置的透明性、并发透明性

2014-01-05 23:53:13 471

原创 HDFS的优点、缺点及改进策略

HDFS以流式数据访问模式来存储超大文件，运行与商用硬件集群上。 1、超大文件 "超大文件"在这里指具有几百MB，几百GB甚至几百TB大小的文件。目前已经有存储PB级数据的Hadoop集群了。 2、流式数据访问 HDFS的构建思路是：“一次写入，多次读取”是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来，接着长时间在此数据集上进行各

2014-01-05 23:38:28 1089

原创服务器运维监控项总结

服务器需监控的对象进行分类,可以归纳为硬件资源类、服务资源类和自定义的资源类。1、硬件资源类包括:CPU使用率CPU负载内存使用率磁盘空间使用率磁盘I/O网络流量系统进程数2、服务资源类包括(Linux平台上运行的所有服务): Erlang 性能监控： Erlang进程数监控 Erlang内存监控 cpu使用率 A

2014-01-05 22:17:59 2244 1

原创介绍Hadoop相关的几个开源系统

Hadoop作为一个生态系统，每个系统只解决某一个特定的问题域，这也是Hadoop的魅力所在：不搞统一型的一个全能系统，而是小而精的多个小系统。本文重点讨论分布式计算领域的几个开源系统可以解决的问题域。（1）MapReduce：古老的分布式计算框架，它的特点是扩展性、容错性好，易于编程，适合离线数据处理，不擅长流式处理、内存计算、交互式计算等领域。MapReduce网址是：http://had

2014-01-05 22:05:16 525

原创 Hadoop生态系统

使用Hadoop已经有一段时间了，从开始的迷茫，到各种的尝试，到现在组合应用….慢慢地涉及到数据处理的事情，已经离不开hadoop了。Hadoop在大数据领域的成功，更引发了它本身的加速发展。现在Hadoop家族产品，已经近20个了之多。有必要对自己的知识做一个整理了，把产品和技术都串起来。不仅能加深印象，更可以对以后的技术方向，技术选型做好基础准备。截止到

2014-01-05 20:32:13 905

翻译 Hadoop分布式文件系统：架构和设计（摘自Hadoop官方文档)

一、引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件

2014-01-05 18:38:41 693

原创 POSIX名词解释

对Hadoop新手，在学习过程中，经常会遇到关于POSIX的词出现，特意找了一些资料，解析下POSIX到底是神马。在维基百科中解释为，可移植操作系统接口（英语：Portable Operating System Interface，缩写为POSIX），是IEEE为要在各种UNIX操作系统上运行的软件，而定义API的一系列互相关联的标准的总称，其正式称呼为IEEE 1003，而国际

2014-01-05 15:45:22 614

原创 Linux中.bash_profile和.bashrc的区别

/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该

2014-01-05 15:14:18 439

原创开发效率与系统稳定性杂谈

(转自:http://timyang.net/misc/productivity-availability/)在互联网系统中，开发效率与系统稳定性与产品成败非常相关。开发效率在一定程度反映了团队的执行力，快速开发能力带来了产品的竞争优势。系统稳定性（包括安全及性能等）则是产品的后防线，稍有失误则会给产品带来很大伤害。因此开发效率与系统稳定性是衡量互联网系统开发成熟度最重要的两个指标。...

2013-03-05 17:04:18 453

原创谈技术团队目标

(转自：http://timyang.net/management/planning/)技术主管新年想得最多的一件事必定是如何比上一年做得更好。宏大的目标设定每个团队都会做，谈几个不引人注意的小问题。1、主动与被动见过一些技术团队将计划定义为“按时完成需求”，需求驱动并没有什么不对，但是研发工作仅考虑被动需求的话是很难做好。之前完成的许多需求有什么共性？延误的项目有哪些原因...

2013-03-05 17:01:52 228

原创设计原则

面向对象的S.O.L.I.D 原则一般来说这是面向对象的五大设计原则，但是，我觉得这些原则可适用于所有的软件开发。Single Responsibility Principle (SRP) – 职责单一原则关于单一职责原则，其核心的思想是：一个类，只做一件事，并把这件事做好，其只有一个引起它变化的原因。单一职责原则可以看作是低耦合、高内聚在面向对象原则上的引申，将职责定义为引起变化...

2013-02-27 17:30:16 123

原创线程的概念

说法一：进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位. 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源. 一个线程可以创建和撤销另一个...

2012-12-30 17:54:29 127

原创 Eclipse快捷键

Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对...

2012-12-30 14:21:52 116

原创 Nginx与Nginx-GridFS的安装与配置

Nginx与Nginx-GridFS的安装与配置

2012-12-30 14:13:35 396

邮件代收发系统存储方案设计

本主要描述MongoDB解决邮件代收发的存储方案架构设计，希望对有需要的朋友有帮助。

2012-12-30 14:05:38 190

原创长连接与短连接

长连接与短连接所谓长连接，指在一个TCP连接上可以连续发送多个数据包，在TCP连接保持期间，如果没有数据包发送，需要双方发检测包以维持此连接，一般需要自己做在线维持。短连接是指通信双方有数据交互时，就建立一个TCP连接，数据发送完成后，则断开此TCP连接，一般银行都使用短连接。比如http的，只是连接、请求、关闭，过程时间较短,服务器若是一段时间内没有收到请求即可关闭连接。 ...

2012-12-30 14:00:12 137

原创 Hashtable、synchronizedMap、ConcurrentHashMap 性能比较

Doug Lea的util.concurrent包除了包含许多其他有用的并发构造块之外，还包含了一些主要集合类型List和Map的高性能的、线程安全的实现。Brian Goetz向您展示了用ConcurrentHashMap替换Hashtable或synchronizedMap，将有多少并发程序获益。在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK 1.0的一部分...

2011-12-01 10:33:34 572

原创 ESB

ESB的类型 ESB最终以两种截然不同的形态存在于实际项目中：一种是纯粹的SOA交互基础中间件，是系统间松耦合地互操作的基础设施。一种是ESB风格的应用，联合多个系统提供组合服务，例如电信的ISAG能力网关就是其中典型。既有一个ESB的实现作为其基础设施，同时也遵循ESB的编程模型。两者间的界限并不明显，在渐变中ESB对周边服务的业务逻辑会越来越了解，直接体现在...

2011-09-30 07:22:06 150

原创架构师核心技能养成计划

作者：江南白衣，原文出处： http://blog.csdn.net/calvinxiu/archive/2007/02/18/1511545.aspx，转载请保留。引子： "这个项目的架构是什么？" 对方爽快的回答："Spring+Struts+Hibernate。" 嗯，这位很可能不是架构师......一、核心竞争力架构设计的理论、模式与技术架构师们从试验与挫...

2011-09-30 07:13:48 127

原创 java 数组复制:System.arrayCopy 深入解析

先看ArrayList源码中数组复制的代码: 其实ArrayList 就是一个数组的形式存放数据的. 没有高深的地方.他的性能在于他的索引能力, 正因为他是数组形式,所以索引元素的时候他表现得非常的快速成,试想一下, 只要知道这...

2011-06-08 15:54:50 226

原创排序算法复习（Java实现）：插入，冒泡，选择，Shell,快速排序，归并排序，堆排序，桶式排序，基数排序 ...

来自：http://www.blogjava.net/javacap/archive/2007/12/13/167364.html为了便于管理，先引入个基础类：package algorithms;/** * @author yovn * */public abstract class Sorter<E extends Comparable<E>&...

2011-06-08 15:53:07 118

原创各种数组排序方法总结

转载各种数组排序方法总结.地址：http://www.iteye.com/topic/237517 import java.lang.Math;import java.util.Random;/** * 排序 * */public class OrderTest { public static void main(String args[]) { ...

2011-06-08 15:40:13 136

原创纯Java实现的多路归并快速排序算法

纯Java实现的多路归并快速排序算法,占用内存极少,速度很快,能处理上亿条的海量数据,无任何依赖.[代码] 纯Java实现的多路归并快速排序算法package wjw.PreTrans;import java.io.*;import java.util.*;import org.apache.commons.io.*;public class...

2011-06-08 15:37:36 738

原创计算机数组排序常用方法介绍

排序是计算机内经常进行的一种操作，其目的是将一组“无序”的记录序列调整为“有序”的记录序列。内部排序和外部排序：若整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序；反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。内部排序的方法...

2011-06-08 15:33:50 550

深入浅出Struts2.0

深入Web请求过程

Web并发模型粗浅探讨

java开源的文件管理系统

Java Swing

空空如也