2013年11月_小小八卦姐

转载 Linux Crontab 定时任务命令详解

一. Crontab 介绍 crontab命令的功能是在一定的时间间隔调度一些命令的执行。 1.1 /etc/crontab 文件在/etc目录下有一个crontab文件，这里存放有系统运行的一些调度程序。每个用户可以建立自己的调度crontab。如：[root@dave ~]# cat /etc/crontabSHEL

2013-11-30 20:41:51 580

转载 [Hadoop源码解读]（六）MapReduce篇之MapTask类

MapTask类继承于Task类，它最主要的方法就是run()，用来执行这个Map任务。 run()首先设置一个TaskReporter并启动，然后调用JobConf的getUseNewAPI()判断是否使用New API，使用New API的设置在前面[Hadoop源码解读]（三）MapReduce篇之Job类讲到过，再调用Task继承来的initialize()方法初始化这个tas

2013-11-25 10:11:15 940

转载 [Hadoop源码解读]（五）MapReduce篇之Writable相关类

前面讲了InputFormat，就顺便讲一下Writable的东西吧，本来应当是放在HDFS中的。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。Writable是Hadoop的序列化格式，Hadoop定义了这样一个Writable接口。[html] view plainco

2013-11-25 10:10:32 690

转载 [Hadoop源码解读]（四）MapReduce篇之Counter相关类

当我们定义一个Counter时，我们首先要定义一枚举类型：[html] view plaincopyprint?public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORMAL_DATA_COUNTER }; 然后，我们就可以在mapper或

2013-11-25 10:09:38 712

转载 [Hadoop源码解读]（三）MapReduce篇之Job类

下面，我们只涉及MapReduce 1，而不涉及YARN。当我们在写MapReduce程序的时候，通常，在main函数里，我们会像下面这样做。建立一个Job对象，设置它的JobName，然后配置输入输出路径，设置我们的Mapper类和Reducer类，设置InputFormat和正确的输出类型等等。然后我们会使用job.waitForCompletion()提交到JobTracker，

2013-11-25 10:08:40 759

转载 [Hadoop源码解读]（二）MapReduce篇之Mapper类

前面在讲InputFormat的时候，讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。这一篇里，开始对Mapper.class的子类进行解读。先回忆一下。Mapper有setup()，map()，cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作，map()则一般承担主要的处理工

2013-11-25 10:07:57 714

转载 [Hadoop源码解读]（一）MapReduce篇之InputFormat

平时我们写MapReduce程序的时候，在设置输入格式的时候，总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat，这是一个抽象类，其子类有专门用于读取普通文件的FileInputFormat，用来读取数据库的DBInputFormat等等。

2013-11-25 09:59:50 667

转载 MapReduce编程(入门篇)

一. MapReduce 编程模型还是以一个经典的图片来说明问题.1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大2. 通过split之后, 他变成了若干的分片, 每个分片交给一个Map处理3. map处理完后, tasktracker会把数据进行复制和排序, 然后通过输出的key 和value进行 partition的划分, 并把partition相同的map输出,

2013-11-23 22:22:01 1498 1

转载 MapReduce 编程模型在日志分析方面的应用

简介日志分析往往是商业智能的基础，而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。本文将以对访问网页用户的日志进行分析，进而挖掘出用户兴趣点这一完整流程为例，详细解释 MapReduce 模型的对应实现，涵盖在 MapReduce 编程中对于特殊问题的处理技巧，比如机器学习算法、排序算法、索引机制、连接机

2013-11-23 20:17:25 1114

转载 Eclipse快捷键大全

Eclipse快捷键，Create a new class.Alt + Shift + N, C 创建类属性输入String name;创建构造器　Generate constructorAlt + Shift + S, O，回车创建getter/setter Generate Getters and SettersAlt + Shi

2013-11-23 14:10:21 1099

转载 Eclipse 代码提示功能设置

1. 解决实例化时自动补全不必要的单词问题2. 以MyEclipse 6.5重新配图鉴于网上的批评之声甚大，我只想说明我的想法：这样的增强代码提示，最终是用来辅助我们开发的，提高开发效率的，而不是用来满足“不用敲那么多的代码”的偷懒行为的。初学者，可以通过提示，获得一些容易忘记的包名、容易忘记的类名（对于初学者来说，很多东西只是用得少而已

2013-11-23 14:07:36 704

原创编译cdh4-hadoop的eclipse插件

电脑为纯净版本，即什么编译工具之类的都没有安装。

2013-11-22 15:04:14 2159

转载 Spring hadoop之一 mongodb与hadoop的整合使用

在上一章节我们讲到了hbase的使用回顾，这一章我们将一下同样是nosql的另一分支 mongodb 基于文档型数据库mongodb的基本使用下面是一张与oracle mysql这种关系型数据库的对比基本操作 cruddb.users.insert( { user_id: "abc123", age: 55, status: "A" } )d

2013-11-19 09:58:14 4195

转载将 Hadoop YARN 发扬广大

带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架，Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统，包括 Apache Pig（一种强大的脚本语言）和 Apache Hive（一个具有类似 SQL 界面的数据仓库解决方案）。

2013-11-19 09:52:23 958

转载 mongodb删除集合后磁盘空间不释放

转载于：mongodb删除集合后磁盘空间不释放 - 李岩的博客mongodb删除集合后磁盘空间不释放，只有用db.repairDatabase()去修复才能释放。修复可能要花费很长的时间,在使用db.repairDatabase()去修复时一定要停掉读写，并且mongodb要有备机才可以，不然千万不要随便使用db.repairDatabase()来修复数据库，切记。

2013-11-16 21:55:27 3956 1

转载 mongodb分布式集群架构

本文转载于夜的博客 http://freeze.blog.51cto.com/1846439/884925

2013-11-14 16:29:44 985

转载 MongoDB与内存

本文转载于运维生存时间http://www.ttlsa.com/html/1096.html

2013-11-13 21:17:34 804

转载 mongodb架构mongodb分片集群与简易搭建方案—ttlsa教程系列之mongodb(六)

本文转载于运维生存时间http://www.ttlsa.com/html/1096.htmlmongodb的扩展方式—分片，如果业务数据和系统负载不断增加，可以通过分片来解决。分片就是指将数据拆分，分散到不同的服务器上，从而处理更大的负载，存储大数据。当数据增大到一定程度时，查询数据会变的很慢，难以忍受的地步，严重影响用户体验。往往就会根据业务对大表大数据库进行

2013-11-13 21:04:17 1163

转载 ttlsa教程系列之mongodb——(五)mongodb架构-复制原理&复制集

本文转载于运维生存时间http://www.ttlsa.com/html/1096.htmlmongodb集群：复制，复制集和分片。强烈建议在生产环境中使用mongodb的复制功能。复制具有故障切换，读扩展，热备份和离线批处理操作。默认情况下，主节点负责客户端所有的读写请求，从节点不可读不可写。一. 工作原理1. mongodb的复制至少需要两个实例。其中一个

2013-11-13 21:02:40 871

转载 mongodb高可用性架构—Replica Set

本文转载于运维生存时间http://www.ttlsa.com/html/1096.htmlmongodb高可用性架构—Replica SetReplica Set使用的是n个mongod节点，构建具备自动的容错功能(auto-failover),自动恢复的(auto-recovery)的高可用方案。使用Replica Set来实现读写分离。通过在连接时

2013-11-13 20:55:38 972

转载 mongodb sharding cluster(分片集群)

MongoDB的auto-sharding功能是指mongodb通过mongos自动建立一个水平扩展的数据库集群系统，将数据库分表存储在sharding的各个节点上。通过把Sharding和Replica Sets相结合，可以搭建一个分布式的，高可用性，自动水平扩展的集群。要构建MongoDB Sharding Cluster，需要三种角色：Shard Server: mo

2013-11-13 20:45:07 1786

转载 Hive metastore三种存储方式

本文转载于绚丽也尘埃的博客：http://www.fuzhijie.me/?p=377测试环境下Hive总出问题，metastore的配置有问题。抽了点时间，把Hive的meta数据几种存储方式都配置了下。Hive的meta数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive M

2013-11-13 17:34:58 890

转载 Consistent Hashing

转自：http://www.tomkleinpeter.com/2008/03/17/programmers-toolbox-part-3-consistent-hashing/Next up in the toolbox series is an idea so good it deserves an entire article all to itself: consistent ha

2013-11-12 21:46:42 880

转载 Maven的Dependency怎么找？

本文转载于：http://www.iteye.com/topic/240424　　用了Maven，所需的JAR包就不能再像往常一样，自己找到并下载下来，用IDE导进去就完事了，Maven用了一个项目依赖(Dependency)的概念，用俗话说，就是我的项目需要用你这个jar包，就称之为我的项目依赖你这个包，换句话说，你这个JAR包就是我这个项目的Dependency。

2013-11-11 15:23:25 928

转载深入理解Hadoop集群和网络

导读：云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写，他曾在思科工作多年，专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的培训资料。本文将着重于讨论Hadoop集群的体系结构和方法，及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Had

2013-11-10 15:12:51 869

转载 HDFS-HA的配置-----自动Failover（ZKFC）

转载于http://blog.csdn.net/chenpingbupt http://www.wuzesheng.com/?p=24751、概述在手动FailOver的基础上，自动Failover增加了两个东西：一个是ZooKeeper集群，一个是ZKFailoverController(简称：ZKFC)ZK集群：作为一个高可靠系统，能够为一小部分

2013-11-03 22:23:19 6979

小小八卦姐的专栏