mm_bit-CSDN博客

转载 HBase周边知识

HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式，这样方便读写你的大数据内容。HBase是介于Map Entry(key & value)和DB Row之间的一种数据存储方式。就点有点类似于现在流行的Memcache，但不仅仅是简单的一个key对应一个 value，你很可能需要存储多个属性的数据结构

2016-03-21 18:10:15 733

Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进

2016-03-21 18:03:33 1065

转载 HBase数据库检索性能优化策略

HBase 数据表介绍HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigTable”。HDFS 为 HBase 提供底层存储支持，MapReduce 为其提供计算能力，ZooKeeper 为其提供协调服务和 failover（失效转移的备份操作）机制。Pig 和 Hive 为 HBase

2016-03-21 18:01:29 948

转载 HBase深入学习(2)

HBase读的实现通过前文的描述，我们知道在HBase写时，相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起，甚至删除一个Cell也只是写入一个新的Cell，它含有Delete标记，而不一定将一个Cell真正删除了，因而这就引起了一个问题，如何实现读的问题？要解决这个问题，我们先来分析一下相同的Cell可能存在的位置：首先对新写入的Cell，它会存在于

2016-03-21 17:20:54 595

转载 HBase深入学习（1）

HBase架构组成HBase采用Master/Slave架构搭建集群，它隶属于Hadoop生态系统，由一下类型节点组成：HMaster节点、HRegionServer节点、ZooKeeper集群，而在底层，它将数据存储于HDFS中，因而涉及到HDFS的NameNode、DataNode等，总体结构如下：其中HMaster节点用于：管理HRegionServer，实现

2016-03-21 17:18:23 872

转载 ArtifactdescriptorException: failed to read artifact for xxxxxx.

在MyEclipse中执行Maven的install命令时，报“Failed to read artifact descriptor for xxx:jar ”的错误。这可能是在下载过程中文件出现错误。解决办法：从本地的maven库中删除相关的jar包，然后右单击项目，Maven4MyEclipse->Update Project，在弹出的对话框中选择“Force Update O

2016-03-09 16:01:58 10411

转载 maven远程仓库配置

可在pom.xml里面配置远程仓库，我们需要在什么时候配置远程仓库呢？当你连接中央仓库的速度比较慢时，或者你为你的公司搭建了自己的仓库，比如Nexus仓库管理(后面我会介绍)，又或者你苏需要的jar存在另外一个公共仓库，比如我们配置一个国内的镜像地址Xml代码 project> … repositories> r

2016-03-09 13:23:37 687

原创 Missing artifact jdk.tools:jdk.tools:

错误：Missing artifact com.hugetable.hive:hugetable-core:jar:5.4解决办法：jdk.tools:jdk.tools是与JDK一起分发的一个JAR文件，可以如下方式加入到Maven项目中： jdk.tools jdk.tools 1.7 system ${JAVA_H

2016-03-09 12:31:34 564

原创 maven的Plugin execution not covered by lifecycle configuration解决办法

错误类型：Plugin execution not covered by lifecycle configuration: org.apache.maven.plugins:maven-antrun-plugin:1.7:run (execution: define-classpath, phase: process-resources)错误原因：eclipse的m2e插件还没有支持到

2016-03-09 11:32:43 15583

转载 Kerberos认证流程详解

Kerberos是诞生于上个世纪90年代的计算机认证协议，被广泛应用于各大操作系统和Hadoop生态系统中。了解Kerberos认证的流程将有助于解决Hadoop集群中的安全配置过程中的问题。为此，本文根据最近阅读的一些材料，详细介绍Kerberos认证流程。欢迎斧正！Kerberos解决什么问题？简单地说，Kerberos提供了一种单点登录(SSO)的方法。考虑这样一个场景，在一

2016-03-03 15:07:12 3019

转载 Eclipse将引用了第三方jar包的Java项目打包成jar文件的两种方法

方案一：用Eclipse自带的Export功能步骤1：准备主清单文件 “MANIFEST.MF”，由于是打包引用了第三方jar包的Java项目，故需要自定义配置文件MANIFEST.MF，在该项目下建立文件MANIFEST.MF，内容如下：Manifest-Version: 1.0Class-Path: lib/commons-codec.jar lib/commons-

2015-12-25 17:29:33 565

原创 linux命令nohup的使用，ps-aux

在linux命令行中，如果某条命令需要执行的时间非常长，则可把该条命令放在后台执行，这样就可以继续在该命令行窗口干其他事情，同时不影响之前那条命令继续执行，linux中针对该问题有一个nohup的命令可实现。nohup命令：如果你正在运行一个进程，而且你觉得在退出帐户时该进程还不会结束，那么可以使用nohup命令。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。nohup就是不挂起的意

2015-12-25 12:02:29 2969

原创 spark和hadoop的区别

spark的结构图如下：一个Application和一个SparkContext相关联，每个Application中可以有一个或多个Job，可以并行或者串行运行 Job。Spark中的一个Action可以触发一个Job的运行。在Job里面又包含了多个Stage，Stage是以Shuffle进行划分的。在 Stage中又包含了多个Task，多个Task构成了Task Se

2015-12-21 17:39:44 2533

原创 java中jar包内的类访问jar包内部的资源文件的路径问题

在本地项目中，若我们要访问项目中的资源文件，则一般使用相对路径或者用System.getProperities("user.dir")得到项目根目录，然后再访问资源文件，但是在将该工程和资源文件打包为jar包，运行该jar文件时，会显示找不到资源文件的错误。在如下项目结构树中，项目根目录为nlpir，如果我们要在src下的某个package的某个java文件中访问blackWhite文件夹中的

2015-12-21 16:37:53 78837 3

原创 BufferedWriter写中文乱码

在写文件时，如下定义bw，写入的中文总是乱码，BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(filePath),false), "UTF-8"));在使用如下方法写入时，仍是乱码：bw.write(new String(s.getBytes("gbk

2015-12-15 15:29:10 20992 1

原创 linux上利用scp复制文件

1、功能说明scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下：scp 远程用户名@IP地址：文件的绝对路径本地Linux系统路径 scp 本地Linux系统文件路径远程用户名@IP地址：远程系统文件绝对路径名scp使用第一种格式是将远程Linux系统上的某个

2015-12-15 15:09:55 661

转载 IDEA14从svn上导入项目

大体上是转载，针对版本14有一些特殊的添加。查看svn的资源库：下面的多出了一个svn的窗口，在左边有加号可以添加一个svn的库输入svn的地址，我用的是本地的测试，所以地址为svn://127.0.0.1/newproject 根据服务不同这个地址也不一样可能是http或着https 添加上svn库的地址后，我们可以浏览库上的文件

2015-12-11 18:33:59 31967 1

转载使用IDEA将本地项目提交到svn上

idea创建projecteclipseideaworkspaceprojectprojectmodel一、创建maven工程。1.欢迎页面，点击“Create New Project” 2.打开创建项目页面，可以选择具体的model，选择具体的model后，project中只能创建一个mode

2015-12-11 18:21:23 61065 4

原创 log4j使用

1.新建一个JAva工程，导入包log4j-1.2.17.jar，整个工程最终目录如下2、src同级创建并设置log4j.properties[java] view plaincopy ### 设置### log4j.rootLogger = debug,stdout,D,E ### 输出信息到控制

2015-12-09 19:31:22 532

转载 Eclipse将引用了第三方jar包的Java项目打包成jar文件的两种方法

方案一：用Eclipse自带的Export功能步骤1：准备主清单文件 “MANIFEST.MF”，由于是打包引用了第三方jar包的Java项目，故需要自定义配置文件MANIFEST.MF，在该项目下建立文件MANIFEST.MF，内容如下：Manifest-Version: 1.0Class-Path: lib/commons-codec.jar lib/commons-

2015-12-09 17:11:54 493

原创 IDEA14使用笔记

主题、字体等相关设置：　　1）主题　　　　Setttings-->Appearance&Behavior-->Appearance Theme下拉选择Darcula,勾选 Override defaule fonts，选择微软雅黑字号　　　　　　2）显示字体行号勾选右边 Show line Numbers　　　　　　3) Ctrl+滚轮改变字体

2015-12-09 15:29:35 539

转载 JVM类加载机制

虚拟机把描述类的数据从Class文件加载到内存，并对数据进行校验、转换解析、初始化，最终形成可以被虚拟机直接使用的Java类型，这就是虚拟机的类加载机制从类被加载到虚拟机内存中开始，到卸载出内存为止，类的生命周期包括加载（Loading）、验证（Verification）、准备（Preparation）、解析（Resolution）、初始化（Initialization）、使用（Using

2015-12-09 11:09:59 448

原创 hive中的分区表

分区表其实就是按照表中数据的某一列的值进行划分文件(自我理解类似于sql查询中的group by），一个分区下包含多个子目录，用于分区的虚拟列有多少种枚举值就有多少个子目录。分区表可以采用一个虚拟列进行分区，也可以采用多个虚拟列进行分区。分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围，从而提高速度。分区分为两种：静态分区static partition和动态分区dyna

2015-12-07 16:01:04 2406

原创 Hadoop知识点总结

之前自己在慕课网在线学习了关于hadoop的初步知识，在此记录一下：hadoop主要是由两部分构成：1、HDFS，负责存储，为分布式文件系统；2、MapReduce，是并行处理框架，用于实现任务的分解和调度。hadoop的优势：1、高扩展：通过添加硬件来实现性能的提升，扩充容量。2、低成本：只需要普通PC机即可，不需高端硬件。3、成熟的生态圈：周边开源工具丰富：有Hive、HBase（其中

2015-12-07 11:26:22 2016

转载把文件的属性由隐藏改为存档

对于无法显示隐藏文件或文件夹的问题，以前已经给出过解决方案就不再累述了。接下来是这个问题：可以显示隐藏文件，但是想将隐藏文件或文件夹的隐藏属性去掉，却无法操作。因为右键查看文件属性时，可以看到隐藏的属性为灰色，前面的勾无法去掉。这种情况多是中了U盘病毒所导致。隐藏文件或文件夹属性无法修改解决方案一：1、进入"开始"菜单，选择"运行"输入"cmd"后进入命令提示符窗口。2、输入盘

2015-11-25 10:06:53 3846

原创 java求最大子序列的和的问题

昨天去oracle面试，面试官很负责，先做笔试，四道题，做的不是很顺利，现在回来mark学习，革命尚未成功，同志仍需努力！加油！import java.util.Scanner;/** * @author mijing * @version 2015年11月24日下午1:51:32 *//** * 问题：求最大子序列和：给定一整数序列A1， A2，... An （可

2015-11-24 18:12:31 1213

转载 java中的信号量semaphore实现生产者消费者模式

Semaphore 信号量，就是一个允许实现设置好的令牌。也许有1个，也许有10个或更多。谁拿到令牌(acquire)就可以去执行了，如果没有令牌则需要等待。执行完毕，一定要归还(release)令牌，否则令牌会被很快用光，别的线程就无法获得令牌而执行下去了。请仔细体会里面关于仓库的处理，1 是如何保证入库时，如果仓库满就等待，2 出库时，如果仓库无货

2015-11-24 11:59:56 6852

原创 java中的信号量Semaphore

信号量可以用来限制访问公共资源。在访问公共资源之前，线程必须从信号量获取许可。在访问资源之后，这个线程必须将许可返回给信号量，为了创建信号量，必须使用可选的公平策略来确定许可的数量。任务通过调用信号量acquire（）方法来获得许可，可通过调用信号量的release（）方法来释放许可。一旦获得许可，信号量中可用许可的数量减一。一旦许可呗释放掉，信号量的可用许可

2015-11-18 18:34:30 949

转载 java中用枚举类实现单例模式

枚举单例（Enum Singleton）是实现单例模式的一种新方式，尽管单例模式在java中已经存在很长时间了，但是枚举单例相对来说是一种比较新的概念，枚举这个特性是在Java5才出现的，这篇文章主要讲解关于为什么我们应该使用枚举来实现单例模式，它与传统方式实现的单例模式相比较又有哪些优势？1. 枚举写法简单写法简单这是它最大的优点，如果你先前写过单例模式，你应该知道即使有DCL（

2015-11-18 17:23:04 2219

转载 hadoop估算π

一、hadoop不适合计算密集型的工作以前看过一个PPT： Hadoop In 45 Minutes or Less ，记得上面说hadoop不适合计算密集型的工作，比如计算PI后100000位小数。但是，前几天，我却发现了在hadoop自带的examples里，竟然有PiEstimator这个例子！！它是怎么做到的？？二、通过扔飞镖也能得出PI的值？

2015-11-17 17:40:36 2186

原创 java中的枚举类学习

enum 的全称为 enumeration，是 JDK 1.5 中引入的新特性，存放在 java.lang 包中。创建枚举类型要使用 enum 关键字，隐含了所创建的类型都是 java.lang.Enum 类的子类（java.lang.Enum 是一个抽象类）。枚举类型符合通用模式 Class Enum>，而 E 表示枚举类型的名称。枚举类型的每一个值都将映射到 prote

2015-11-11 18:02:25 561

原创 hadoop中map到reduce的过程详解

对于Hadoop的MapReduce执行机制，主要分为两部分来处理数据，mapper和reducer阶段，这两个阶段中间有一个非常重要的shuffle过程，这个过程其实是mapreduce的核心部分，因为优化过程主要就是从shuffle处下手。系统将map输出作为输入传给reducer的过程（同时会排序）成为shuffle。shuffle是MapReduce的“心脏”，是奇迹发生的地方。现就m

2015-11-09 14:17:07 9396

原创 java反射机制

java反射机制

2015-11-07 22:01:53 497

原创 java打包jar文件，在hadoop中运行

在eclipse中编写完hadoop程序后，运行无错，使用eclipse自带的打包工具打包jar文件，具体步骤如下：1、右键要打包的包或者类，export->java中的可运行jar文件Runnable JarFile，然后一直下一步，注意为了不出错，把依赖的包也打包进去，所以后面选择Package required labiries into generated jars,选择你要保存jar

2015-11-03 16:57:55 8578

转载 linux下Hadoop在Eclipse的配置和使用

安装 Hadoop-Eclipse-Plugin下载 hadoop2x-eclipse-plugin ，将 release 中的 hadoop-eclipse-kepler-plugin-2.2.0.jar （虽然标注的是 2.2.0，但在 2.6.0 下是没问题的，应该在 2.x 版本下都可以）复制到 Eclipse 安装目录的 plugin 文件夹中，运行 eclipse -cle

2015-11-01 20:25:38 4238 2

原创 linux下tar 报错gzip: stdin: not in gzip format

在linux下用tar -zxf xxx.tar.bz2然后就报这个错。gzip: stdin: not in gzip formattar: Child returned status 1tar: Error exit delayed from previous errors一开始我以为是压缩包坏的，去下其他的。下下来也是一样。然后仔细看了一下，原来这个压缩包没

2015-10-29 17:39:15 1700

转载 Cygwin中文乱码

本文解决方法源自：http://www.crifan.com/cygwin_outpu_messy_code/1. 在Cygwin窗口单击右键，出现以下菜单：2. 选择options，出现以下设置窗口：3. 选择左侧Text选项，得到以下窗口：4. Character set选择"GBK(Chinese)"，则Locale自动变为“C", 结

2015-10-28 22:19:37 452

原创 DEPRECATED: Use of this script to execute hdfs command is deprecated. Instead use the hdfs command f

安装hadoop-2.6.1, 执行命令./hadoop namenode format是出现DEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.原来从此版本以后，hadoop 命令换成了hdfs命令，上面的命令如同下面的命令

2015-10-28 21:34:06 10865

原创 Linux下Hadoop2.6的安装

linux：安装流程：1、安装JDK，要求是jdk1.6及其以上的版本：以jdk-8u40-linux-x64.gz为例，在你的java下载目录下sudo tar -zxvf jdk-8u40-linux-x64.gzsudo mv hadoop-2.6.0 /usr/local/jdk1.8.0_40 然后sudo gedit /etc/profi

2015-10-28 11:23:06 2249

转载 java设计模式之适配器模式

结构型模式：适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。以下情况使用适配器模式• 你想使用一个已经存在的类，而它的接口不符合你的需求。• 你想创建一个可以复用的类，该类可以与其他不相关的类或不可预见的类（即那些接口可能不一定兼容的类）协同工作。• （仅适用于对象Adapter）你想使用一些已经存在的子类，但是不可能对每一个都进行子类化以匹配它们

2015-10-26 09:08:26 951

java开发hbase-1.2.1所需的jar包

空空如也