2016年03月_唯pc远方

转载 chkconfig命令详解

chkconfig(check config)命令详解功能说明：chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。语　　法：chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level ][系统服务][

2016-03-31 17:31:59 2060

转载 dd命令使用详解

dd命令使用详解1.命令简介 dd 的主要选项：指定数字的地方若以下列字符结尾乘以相应的数字:b=512, c=1, k=1024, w=2, xm=number mif=file #输入文件名，缺省为标准输入。 of=file #输出文件名，缺省为标准输出。 ibs=bytes #一次读入 bytes 个字节(即一个块大小为 bytes 个字节)。 obs

2016-03-31 17:08:46 502

转载 hdfs简介

hdfs简介Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多的小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统

2016-03-31 13:41:56 693

转载 Hadoop Rack Aware 机架感知

Hadoop Rack Aware 机架感知副本的存放是HDFS可靠性和性能的关键。优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。这种特性需要做大量的调优，并需要经验的积累。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副本存放策略只是在这个方向上的第一步。实现这个策略的短期目标是验证它在生

2016-03-29 17:51:20 1173

转载 hbase　索引记录

hbase　索引记录根本目的是实时的查询速度从两方面来看：一、HBase自身的原理，机制。二、索引的原理机制。一、HBase：reference:HBase技术介绍｜淘宝技术博客http://www.searchtb.com/2011/01/understanding

2016-03-25 14:33:13 422

转载 Linux下面新增硬盘

Linux下面新增硬盘1 把硬盘接上2 重启系统，如果系统不能识别还要设置一下bios3 用fdisk查看 fdisk -l，可以看到多了一块硬盘，并且告诉我们没有分区信息4 用fdisk 进行分区，如 fdisk /dev/sdb 5 格式化新分区如mkfs.ext3fs ***， mkfs.reiserfs ***6 mount7如果想要在

2016-03-25 10:04:54 328

转载如何把一个命令加入到某个用户sudo的列表中

2016-03-24 20:52:42 4222

转载 Linux添加/删除用户和用户组

Linux添加/删除用户和用户组本文总结了Linux添加或者删除用户和用户组时常用的一些命令和参数。1、建用户：adduser phpq //新建phpq用户passwd phpq //给phpq用户设置密码2、建工作组groupadd test

2016-03-24 20:27:29 407

转载拉链表

数据仓库数据模型之：极限存储--历史拉链表摘要: 在数据仓库的数据模型设计过程中，经常会遇到文内所提到的这样的需求。而历史拉链表，既能满足对历史数据的需求，又能很大程度的节省存储资源。在数据仓库的数据模型设计过程中，经常会遇到这样的需求：1. 数据量比较大;2. 表中的部分字段会被update,如用户的

2016-03-22 16:33:46 795

转载 GROUP BY,WHERE,HAVING之间的区别和用法

GROUP BY,WHERE,HAVING之间的区别和用法 having子句与where有相似之处但也有区别,都是设定条件的语句。在查询过程中聚合语句(sum,min,max,avg,count)要比having子句优先执行.而where子句在查询过程中执行优先级别优先于聚合语句(sum,min,max,avg,count)。简单说来：where子句：s

2016-03-22 16:06:07 688

转载 MapReduce 中的两表 join 几种方案简介

MapReduce 中的两表 join 几种方案简介1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。

2016-03-22 11:30:50 306

转载 Hive 基础之：分区、桶、Sort Merge Bucket Join

Hive 基础之：分区、桶、Sort Merge Bucket JoinHive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个

2016-03-22 11:27:40 502

转载 hadoop hive sql语法解释

hadoop hive sql语法解释DDL Operations创建内部表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建内部表并创建分区dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 创建外

2016-03-22 11:19:26 375

转载 MapReduce实现join操作

MapReduce实现join操作数据准备首先是准备好数据。这个倒已经是一个熟练的过程，所要做的是把示例数据准备好，记住路径和字段分隔符。准备好下面两张表：（1）m_ys_lab_jointest_a（以下简称表A）建表语句为：[sql] view plain copy print?

2016-03-18 13:59:51 389

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop 新 MapReduce 框架 Yarn 详解原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架（0.20.0 及之前版本）的同

2016-03-18 10:19:41 358

转载 hadoop学习WordCount+Block+Split+Shuffle+MapReduce详解

hadoop学习WordCount+Block+Split+Shuffle+MapReduce详解Shuffle过程是MapReduce的核心，集中了MR过程最关键的部分。要想了解MR，Shuffle是必须要理解的。了解Shuffle的过程，更有利于我们在对MapReduce job性能调优的工作有帮助，以及进一步加深我们队MR内部机理的了解。Shuffle到底是什么，自己在参考一

2016-03-17 17:18:16 902

转载 Hadoop学习笔记：MapReduce框架详解

Hadoop学习笔记：MapReduce框架详解开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技术解决了什么问题

2016-03-17 16:49:31 296

转载 Spark1.0.0 运行架构基本概念

Spark1.0.0 运行架构基本概念1、Spark Application的运行架构有哪些组成？2、Spark on YARN 的运行过程是什么？前言Spark Application的运行架构由两部分组成：driver program（SparkContext）和executor。Spark Application一般都是在集群中运行，比如Spark S

2016-03-17 10:41:14 657

转载 Hadoop关于处理大量小文件的问题和解决方法

Hadoop关于处理大量小文件的问题和解决方法摘要：小文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果

2016-03-16 14:43:41 735

转载【一】HDFS简介

【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。----------------

2016-03-16 14:41:16 395

转载 Hadoop Shell 讲解

Hadoop Shell 讲解概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法：hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。

2016-03-16 13:14:04 265

转载 SQL Join的一些总结

SQL Join的一些总结1.1.1 摘要Join是关系型数据库系统的重要操作之一，SQL Server中包含的常用Join：内联接、外联接和交叉联接等。如果我们想在两个或以上的表获取其中从一个表中的行与另一个表中的行匹配的数据，这时我们应该考虑使用Join，因为Join具体联接表或函数进行查询的特性本文将通过具体例子介绍SQL中的各种常用Join的特性和使

2016-03-15 16:23:31 239

转载 Hadoop 的HA高可集群用性

Hadoop 的HA高可集群用性一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性（HA ）功能的概述，以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情，请参阅Apache 的HDFS 的架构指南。http://hadoop.apache.org/common/

2016-03-15 15:18:05 275

转载 HBase 常用Shell命令

HBase 常用Shell命令进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami表的管理1）查看有哪些表

2016-03-15 13:49:17 226

转载 HBase入门篇

HBase入门篇目录：1-HBase的安装2-Java操作HBase例子3-HBase简单的优化技巧4–存储5(集群) -压力分载与失效转发6 -白话MySQL(RDBMS)与HBase之间7 -安全&权限1-HBase的安装HBase是什么？HBase是Apache Hadoop中的一个子项目，Hbase依

2016-03-15 13:44:52 456

转载【Hadoop基础】hadoop fs 命令

【Hadoop基础】hadoop fs 命令1，hadoop fs –fs [local | ]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的had

2016-03-11 15:42:04 474

转载 HBase基本概念和hbase shell常用命令用法

HBase基本概念和hbase shell常用命令用法1. 简介　　HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Z

2016-03-10 20:38:26 298

转载 HBase快速导入数据--BulkLoad

HBase快速导入数据--BulkLoadApache HBase是一个分布式的、面向列的开源数据库，它可以让我们随机的、实时的访问大数据。但是怎样有效的将数据导入到HBase呢？HBase有多种导入数据的方法，最直接的方法就是在MapReduce作业中使用TableOutputFormat作为输出，或者使用标准的客户端API，但是这些都不是非常有效的方法。 B

2016-03-10 11:30:54 764

转载 sql语句like的用法

sql语句like的用法在SQL结构化查询语言中，LIKE语句有着至关重要的作用。　　LIKE语句的语法格式是：select * from 表名 where 字段名 like 对应值（子串），它主要是针对字符型字段的，它的作用是在一个字符型字段列中检索包含对应子串的。　　假设有一个数据库中有个表table1，在table1中有两个字段，分别是name和sex二者全是

2016-03-10 10:34:49 324

转载 linux top命令详解

linux top命令详解top命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于Windows的任务管理器。下面详细介绍它的使用方法。top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleep

2016-03-10 10:19:08 229

转载 sqoop常用命令

sqoop常用命令目录(?)[+]1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username dyh -password 000000 2、连接mysql并列出数据库中的表sqoop list-tables --

2016-03-10 10:12:15 637

远方的专栏