2015年06月_冥想者-定

转载 VBoxManage命令用法详解

VBoxManage命令用法详解暂无评论VBoxManage命令用法详解系统环境：CentOS 6.3 x86_64VirtualBox版本：4.2.8VirtualBox扩展版本：4.2.8增加一个新的扩展包VBoxManage extpack install 卸载指定扩展包VBoxManage extpack uninstall

2015-06-30 17:16:11 2150

转载 Hadoop管理命令 dfsadmin

Hadoop管理命令dfsadmindfsadmin是一个多任务的工具，我们可以使用它来获取HDFS的状态信息，以及在HDFS上执行的一系列管理操作。调用方式例如：Hadoop dfsadmin -reportdfsadmin命令详解-report：查看文件系统的基本信息和统计信息。-safeadmin enter | lea

2015-06-30 16:53:01 1353

转载 Hadoop pipes

4. 总结Hadoop pipes给C++程序员提供了一个编写MapReduce作业的方案，它使用socket让Java和C++之间进行通信，这类似于thrift RPC的原理，也许Hadoop Pipes用thrift编写会更加简单。Hadoop pipes使用Java代码从HDFS上读写数据，并将处理逻辑封装到C++中，数据会通过socket从Java传输给C++，这虽然增加了

2015-06-30 16:31:29 458

转载 yum与rpm、apt的区别：rpm的缺陷及yum的优势

发表于 2014-9-19 11:40:27 | 只看该作者 about云|新出视频，openstack零基础入门，解决你ping不通外网难题本帖最后由 pig2 于 2014-9-19 12:23 编辑问题导读1.rpm存在什么问题？2.yum有什么优势？3.apt-get与yum有什么相同之处？我们

2015-06-30 16:01:18 1828

转载 CDH（Cloudera）与hadoop（apache）对比

转：http://www.aboutyun.com/thread-9225-1-1.htmlCloudera的CDH和Apache的Hadoop的区别目前而言，不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Including Apa

2015-06-30 15:54:11 1401

转载 Linux基础必懂：eth0,eth1,eth2,lo是什么意思？

eth0，eth1，eth2……代表网卡一，网卡二，网卡三……lo代表127.0.0.1，即localhost参考：Linux命令：ifconfig　　功能说明：显示或设置网络设备　　语　法：ifconfig [网络设备][down up -allmulti -arp -promisc][add][del][] [media][mem_start][

2015-06-30 15:46:01 28889 1

转载国内最全最详细的Hadoop2.2.0集群的HA高可靠的最简单配置

转：http://www.linuxidc.com/Linux/2014-01/95794.htm简介 Hadoop中的NameNode好比是人的心脏，非常重要，绝对不可以停止工作。在hadoop1时代，只有一个NameNode。如果该NameNode数据丢失或者不能工作，那么整个集群就不能恢复了。这是hadoop1中的单点问题，也是hadoop1不可靠的表现，如图1所

2015-06-30 15:44:28 550

转载 Hadoop的fsck工具

HDFS支持fsck命令用以检查各种不一致。fsck用以报告各种文件问题，如block丢失或缺少block等。fack命令用法如下：bin/hadoop fsck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查的起始目录-move 将损坏的

2015-06-30 15:22:53 693

转载 hadoop升级之fsck命令迎战miss block警告

时间 2014-07-21 16:49:43 三劫散仙原文 http://qindongliang1922.iteye.com/blog/2094610主题 Hadoop继上次升级hadoop完毕后，集群启动正常，但是在访问Namenode的50070的界面上，发现了如下截图的警告信息：如上异常，是什么意思呢？看了下官方的FAQ,大致意思就是，有

2015-06-30 15:22:25 1986

转载谈谈一个重要的http协议头标：X-Forwarded-For

网络的基本知识不懂。有次一个同事询问，为什么经过一个网页请求经过了Http代理服务器后，网站依然能够获知访问者的真实IP地址。不是经过代理了吗？两个原因无法获得真实IP：TCP连接是在代理和网站之间，而非用户与网站之间的；HTTP协议只是第七层协议，怎么会把IP层的访问者的源IP信息也发送了呢？实际上我相信当年设计代理服务器的专家们也遇到了同样的问题，就是如何能

2015-06-29 18:50:30 1862

转载 Linux下找不到IFCONFIG命令---ifconfig

# ifconfig　　提示命令不存在　　使用 # /sbin/ifconfig 即可　　原因：系统默认的环境变量设置不对　　在普通用户和root用户下分别执行echo $PATH，PATH里少了四个地址：/sbin:/usr/sbin:/usr/local/sbin:/usr/kerberos/sbin　　而，ifconfig恰恰就在/sbin里面。

2015-06-29 18:26:44 1764

转载 Nginx 用log_format设置日志格式

1、配置文件#vim /usr/local/nginx/conf/nginx.conflog_format access ‘$remote_addr – $remote_user [$time_local] “$request” ‘‘$status $body_bytes_sent “$http_referer” ‘‘”$http_user_agent” $http_x_forward

2015-06-29 18:17:45 485

转载 Ngxin---启动两个服务器--一个接受请求---一个处理请求

server { listen 9090; server_name ''; charset utf-8; #access_log logs/host.access.log main; access_log logs/reaper.log reaper;##反向代理

2015-06-29 18:03:03 617

转载 Linux tar 用法

.tar.gz或tgz解压：tar -zxvf FileName.tar.gz压缩：tar -zcvf FileName.tar.gz DirName

2015-06-29 15:21:03 325

转载 1-nginx 为何能写log文件

/data/work/nginx/log/reaper_20150513.lognginx 的组件是怎么做到的能把直接 put请求的文件拿过来？

2015-06-29 15:13:19 395

转载 Sqoop-1.4.4工具import和export使用详解

转自：http://shiyanjun.cn/archives/624.htmlSqoop-1.4.4工具import和export使用详解 2014-02-27 21:30:01 YanjunSqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出，其中主要使用了import和export这两个工具。这两个工具非常强大，

2015-06-29 14:57:29 558

转载 hadoop 的所有的参数观看网址

上面的参数，大部分都是默认的参数，需要手动的设置并不多。至于每个默认参数的含义，可以查看以下的链接，http://hadoop.apache.org/common/docs/r/-default.html，如我部署的hadoop的版本是1.2.1，那与hdfs相关的参数可以到http://hadoop.apache.org/docs/r1.2.1/hdfs-default.html查看。

2015-06-29 14:53:27 535

转载 Hadoop权限管理

1. 介绍本文介绍的Hadoop权限管理包括以下几个模块：（1）用户分组管理。用于按组为单位组织管理，某个用户只能向固定分组中提交作业，只能使用固定分组中配置的资源；同时可以限制每个用户提交的作业数，使用的资源量等（2）作业管理。包括作业提交权限控制，作业运行状态查看权限控制等。如：可限定可提交作业的用户；可限定可查看作业运行状态的用户；可限定普通用户只能修改自

2015-06-29 14:50:52 412

转载通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据，Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境：宿主机器操作系统为Win7，Mysql安装在宿主机上，宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop，并实现免密

2015-06-29 14:43:56 378

转载 MapReduce作业配置参数

可在客户端的mapred-site.xml中配置，作为MapReduce作业的缺省配置参数。也可以在作业提交时，个性化指定这些参数。参数名称缺省值说明mapreduce.job.name 作业名称mapreduce.job.priorityNORMAL作业优先级yarn.app.mapreduce.am.resource.

2015-06-29 14:28:57 2684

转载 Sqoop使用和简介

Sqoop 工具是Hadoop环境下连接关系数据库，和hadoop存储系统的桥梁，支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下，关系数据表存在于线上环境的备份环境，需要每天进行数据导入，根据每天的数据量而言，sqoop可以全表导入，对于每天产生的数据量不是很大的情形可以全表导入，但是sqoop也提供了增量数据导入的机制。下面介绍几个常用的sqoop的命令，以及一

2015-06-29 14:25:36 366

转载 Hive配置项的含义详解（5）

关于MetaStore：metastore是个独立的关系数据库，用来持久化schema和系统元数据。hive.metastore.local：控制hive是否连接一个远程metastore服务器还是开启一个本地客户端jvm，默认是true，Hive0.10已经取消了该配置项；javax.jdo.option.ConnectionURL：JDBC连接字符串，默认jdbc:derby:

2015-06-29 13:44:36 728

转载 Hive教程 http://www.yiibai.com/hive/

http://www.yiibai.com/hive/ 可以参考

2015-06-29 13:25:46 602

转载 Hive 查询优化总结

一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个ma

2015-06-29 12:56:45 481

转载 hive partition ||| hive分区

partition是hive提供的一种机制：用户通过指定一个或多个partition key，决定数据存放方式，进而优化数据的查询一个表可以指定多个partition key，每个partition在hive中以文件夹的形式存在。实例（static partition）：编辑文件：/home/work/data/test3.txt; /home/work/data/test4.tx

2015-06-29 11:19:33 440

转载 OozieTimer OozieRunner

OozieTimer OozieRunner为何两个oozie

2015-06-28 21:43:06 343

转载 linux shell 指令诸如-d, -f, -e之类的判断表达式

文件比较运算符-e filename 如果 filename存在，则为真 [ -e /var/log/syslog ]-d filename 如果 filename为目录，则为真 [ -d /tmp/mydir ]-f filename 如果 filename为常规文件，则为真 [ -f /usr/bin/grep ]-L filename 如果 filename为符号链接，

2015-06-28 20:44:32 336

转载 Linux find 用法示例

Linux find 用法示例Linux中find常见用法示例·find path -option [ -print ] [ -exec -ok command ] {} \;find命令的参数；pathname: find命令所查找的目录路径。例如用.来表示当前目录，用/来表示系统根目录。-print： find命令

2015-06-28 20:26:57 363

转载项目之中的 shell脚本中变量是怎么变化的。

#!/bin/bash. ${program.path}/oozie/program/sync.config.shcd ${program.path}/oozie/libserverjava -cp hadoop.qzkc-1.0-RELEASE.jar:${shareit.oozie.share.lib}:json-simple-1.1.1.jar:slf4j-api-1.7.5.j

2015-06-28 20:25:18 380

转载 http://redisdoc.com/ Redis 命令参考

http://redisdoc.com/ Redis 命令参考

2015-06-28 15:48:10 566

转载 SCAN----Redis检索键值对

SCANSCAN cursor [MATCH pattern] [COUNT count]SCAN 命令及其相关的 SSCAN 命令、 HSCAN 命令和 ZSCAN 命令都用于增量地迭代（incrementally iterate）一集元素（a collection of elements）：SCAN 命令用于迭代当前数据库中的数据库键。SSCAN 命令用于迭代集合键

2015-06-28 14:49:16 3154

转载 Hadoop分布式文件系统：架构和设计要点

【IT168 技术文章】一、前提和设计目标 1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。

2015-06-28 14:46:59 725

转载 Properties.store(OutputStream , ""); properties替换输出流中文件内容

OutputStream os = null; String oozieProp = "C:\\Users\\jian\\Desktop\\端午节-hadoop内容-等待提交给百度云--2\\测试文本--.txt"; File propFile = new File(oozieProp); Properties props = new Prop

2015-06-28 13:58:28 1347

转载 Java Web应用程序：Oozie及其使用方式

【IT168 技术】在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍Oozie以及使用它的一些方式。　　什么是Oozie?　　Oozie是一种Jav

2015-06-28 13:26:50 546

转载 hive面试题目：表大概有2T左右，对表数据转换--2

本帖最后由阿飞于 2014-4-20 14:48 编辑有一张很大的表：TRLOG该表大概有2T左右TRLOG：CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimitedfields terminat

2015-06-27 18:29:36 699

转载 hive面试题目：表大概有2T左右，对表数据转换

//org.apache.hadoop.hive.ql.exec.UDFpublic class RowNumber extends org.apache.hadoop.hive.ql.exec.UDF { private static int MAX_VALUE = 50; private static String comparedColumn[] = new

2015-06-27 18:29:08 452

转载 hive UDF 自定函数

今天有同事来问一个我写过的UDF的问题，想起之前貌似写过一篇这样的文章，草稿箱里找了下，确实有，躺了一年半了，发出来，也许对某些同学有帮助~HIVE允许用户使用UDF（user defined function）对数据进行处理。用户可以使用‘show functions’ 查看function list，可以使用'describe function function-name'查看函数

2015-06-27 16:52:39 560

转载 mapred找共同朋友，数据格式如下

import java.io.IOException;import java.util.Set;import java.util.StringTokenizer;import java.util.TreeSet;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;i

2015-06-27 15:47:32 628

转载后台运行命令nohup、job 等

nohup 命令用于把命令放在系统后台来执行，关闭命令所在的控制台和注销所有的用户都不会有影响例如：nohup java -jar X.jar >/dev/null &job内容来自http://blog.chinaunix.net/uid-22969800-id-3063095.html，非常精辟，我摘选部分如下： Linux下面Job Control的一些知

2015-06-27 12:46:50 1681

转载在linux下利用nohup来后台运行java程序

最近要写一个程序来刷新一下memcached中的缓存信息，于是写一个java main来去进行清理，如果在command line直接运行程序，如 Java代码 java -cp "./WEB-INF/lib/*:./WEB-INF/classes" cn.limaoyuan.FirstTest 有人说要最后加一个＆即可，可是我没有弄成功，况且linux

2015-06-27 12:43:02 1851

空空如也

空空如也