自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

寂寞相思鸟

只要有初恋般的热情和宗教般的意志方能成就某种事业

  • 博客(209)
  • 资源 (5)
  • 收藏
  • 关注

转载 java 线程池

假如创建线程的时间开销为T1,线程执行任务的时间为T2,销毁线程的时间为T3,如果T1+T3 >> T2, 这个时候使用线程池往往能大大的提高性能.下面是个线程池的实例.1. 任务接口Task/* * To change this template, choose Tools | Templates * and open the templa

2014-04-17 17:07:24 472

转载 巧用zookeeper实现分布式并行计算

云计算的技术话题中少不了“分布式”,“并行计算” 这些个关键词,我们知道硬件扩展的条件(​Scale-up)始终是有限制的,将计算分散到网络中更多机器的CPU上提供更高的计算性能(Scale-out),并在这基础上能将计算同时进行,那么总体计算瓶颈会减小,计算的性能会显著提高,也就是说将串行计算变为并行计算,将大量的计算在同一时间发生,,将任务分配到每一个处理器上。这里面需要一个重要的角色,分布式

2014-04-17 11:06:47 844

转载 Apache ZooKeeper入门3

开场白:  在上一篇关于介绍Zookeeper的文章中有同学给我留言,说到Zookeeper/Hbase/Hadoop三者之间的关系,在此我把三者之间的关系画在一张图上希望能表达的清楚一些。Zookeeper用来同步Hbase服务状态、监控集群防止单点失效HDFS是Hadoop中最核心的一部分,用来对Hbase的数据进行存储1、Zookeeper客户端与服务端的大致

2014-04-17 10:55:05 596

转载 Apache ZooKeeper入门2

记得在大约在2006年的时候Google出了Chubby来解决分布一致性的问题(distributed consensus problem),所有集群中的服务器通过Chubby最终选出一个Master Server ,最后这个Master Server来协调工作。简单来说其原理就是:在一个分布式系统中,有一组服务器在运行同样的程序,它们需要确定一个Value,以那个服务器提供的信息为主/为准,当这

2014-04-17 10:53:33 572

转载 Apache Zookeeper入门1

口水:Zookeeper是我目前接触过Apache开源系统中比较复杂的一个产品,要搞清楚这个东东里面的运作关系还真不是一时半会可以搞定的事,本人目前只略知皮毛之术。ZooKeeper 是什么?  ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive) 、 小猪(Pig)  的管理员, Apache Hbase和 Apache Sol

2014-04-17 10:51:02 739

转载 Hbase入门6 -白话MySQL(RDBMS)与HBase之间

我的废话1:   任何一项新技术并非救命稻草,一抹一擦立马药到病除的百宝箱,并非使用Spring或者NOSQL的产品就神乎其神+五光十色,如果那样基本是扯淡。同类 型产品中不管那种技术最终要达到的目的是一样的,通过新的技术手段你往往可能避讳了当前你所需要面对的问题,但过后新的问题又来了。也许回过头来看看还不 如在原来的基础上多动动脑筋 想想办法 做些改良可以得到更高的回报。    

2014-04-17 10:36:23 997

转载 HBase入门5(集群) -压力分载与失效转发

在上一篇关于HBase的文章中曾经讲述过HBase在分布式中的架构,这篇文章将会讲述HBase在分布式环境中是如何排除单点故障的(SPFO),做一个小实验讲述HBase在分布式环境中的高可用性,亲眼看到一些现象,延伸一些思考的话题。先来回顾一下HBase主要部件:   1.HBaseMaster     2.HRegionServer    3.HBase Client   4

2014-04-17 10:30:48 628

转载 HBase入门篇4–存储

前几篇文章讲述了 HBase的安装、Hbase命令和API的使用、HBase简单的优化技巧,《HBase入门篇4》这篇文章是讲述把HBase的数据放在HDFS上的点滴过程。目前对与HBase我是一个绝对的新手,如果在文章中有任何我理解有错误的地方请各位指正,谢谢。Ok,进行正题 ………   在HBase中创建的一张表可以分布在多个Hregion,也就说一张表可以被拆分成多块,每一块

2014-04-17 10:27:23 619

转载 HBase入门篇3

前两篇文件分别说到了我在学习HBase中的一些入门经验,而《HBase 入门3》这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数     Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整

2014-04-17 10:24:39 464

转载 HBase 入门篇2

本篇文章讲述用HBase Shell命令 和 HBase Java API 对HBase 服务器 进行操作。在此之前需要对HBase的总体上有个大概的了解。比如说HBase服务器内部由哪些主要部件构成?HBase的内部工作原理是什么?我想学习任何一项知识、技术的态度不能只是知道如何使用,对产品的内部构建一点都不去关心,那样出了问题,很难让你很快的找到答案,甚至我们希望最后能对该项技术的领悟出自己的

2014-04-17 10:22:38 766

原创 HBase入门篇

HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方式来启动Jetty,因此可

2014-04-17 10:18:56 744

原创 vmware tools安装

vmware tools安装之后方便使用虚拟机,最常用的自动全屏和支持复制粘贴文件至虚拟机1  启动虚拟机,开始终端执行[plain] view plaincopyyum install gcc gcc-c++ gcc-gfortran -y  2 vmware菜单上VM->Install Vmware Tools   

2014-04-01 09:47:07 826

转载 ZeroMQ简介

貌似有2个月没写技术帖了(政治帖倒是写了不少)。今天,向各位程序猿同学介绍一个和网络通讯有关的开源项目——ZeroMQ(绰号 ØMQ,以下简称 ZMQ)。事先声明,本帖仅仅是简介,不涉及太深入的话题。★ZMQ是啥玩意儿?  通俗地说,ZMQ是一个开源的、跨语言的、非常简洁的、非常高性能、非常灵活的网络通讯库。  它的官方网站在"这里",维基百科的介绍在"这里"(暂时没有中文的维

2014-03-26 16:29:28 780

转载 zeromq解决了什么问题

很早就听说了zeromq 这个项目,当时不太在意.后来同事kasicass 对这个项目做了研究和分享 ,开始重视起这个项目来.再后来,就是看到这篇博文:zeromq:云时代最好的通信库 >>,下定决心也要看看这个传说的神器.最开始,考虑的问题是,zeromq和libevent,ACE这样定位的项目有什么区别没有?1) libevent封装了对网络I/O,信号,定时器等的处理,可

2014-03-26 16:27:53 1080

转载 Java Socket编程

Java Socket编程       对于Java Socket编程而言,有两个概念,一个是ServerSocket,一个是Socket。服务端和客户端之间通过Socket建立连接,之后它们就可以进行通信了。首先ServerSocket将在服务端监听某个端口,当发现客户端有Socket来试图连接它时,它会accept该Socket的连接请求,同时在服务端建立一个对应的Socket与之进行通信

2014-03-26 11:44:07 700

原创 Socket编程

一,网络编程中两个主要的问题一个是如何准确的定位网络上一台或多台主机,另一个就是找到主机后如何可靠高效的进行数据传输。在TCP/IP协议中IP层主要负责网络主机的定位,数据传输的路由,由IP地址可以唯一地确定Internet上的一台主机。而TCP层则提供面向应用的可靠(tcp)的或非可靠(UDP)的数据传输机制,这是网络编程的主要对象,一般不需要关心IP层是如何处理数据的。

2014-03-26 11:40:10 448

转载 hadoop集群搭建

首先确定hdfs分布式文件系统目前很多大公司都在用,例如百度、腾讯、淘宝等。相信网上也有很多关于这方面的文档,我写这篇文章只是为了自己更加深刻的学习和理解,或者帮助一些不会搭建的童鞋们!以前我搭建的是hadoop-0.20.2、hbase-0.90.4、hbase自带的zookeeper,但是经过与开发测试后,用了hadoop-1.0.3、hbase-0.92.1和独立部署的zookeeper-3

2014-03-24 18:20:42 499

转载 Hadoop MapReduce开发最佳实践

原帖:http://www.infoq.com/cn/articles/MapReduce-Best-Practice-1MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中hello word程序)不仅要熟悉MapRuduce模型,还要了解Linux命令(尽管有Cygwin,但在Windows下运行MapRuduce仍

2014-03-24 16:08:16 955

转载 HDFS的JAVA接口API操作实例

来源:http://blog.sina.com.cn/s/blog_466678e80100p823.html1.Copy a file from the local file system to HDFSThe srcFile variable needs to contain the full name (path + file name) of the file in

2014-03-21 18:08:30 595

转载 HDFS操作

利用HDFS的JavaAPI编程HDFS进行创建、删除、查询等操作。一、之前的一篇里有提到如何创建文件,这里简单再说一下代码:View Code JAVA123Configuration conf = new Configuration();FileSystem fs = FileSystem.get(conf

2014-03-21 17:23:26 697

原创 MR优化

6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响。在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能。压缩 压缩是Hadoop优化的重要部分。通过压缩可以减少作业输出数据的储存足迹,加速MapReduce作业下游接收数据。另外,在map和reduce之间的数据需要被压缩以减轻网络IO的压力。压缩技术的具体内容在第5章中介绍。二进制文件格式

2014-03-21 11:06:27 912

原创 JobBuilder

Hadoop学习有一段时间了,但是缺乏练手的项目,老是学了又忘。想想该整理一个学习笔记啥的,这年头打字比写字方便。果断开博客,咩哈哈~~    开场白结束(木有文艺细胞)    默认的MapReduce作业 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;i

2014-03-21 10:25:26 2657

原创 hive mapjoin使用

今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)  该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。

2014-03-19 10:07:55 750

原创 VmWare安装CentOS6

第一次使用VmWare和CentOS6,中间遇到不少问题,记性不好,还是记下来留作以后查看,也方便遇到这些问题的朋友能做个参考:),我的操作系统是WIN7旗舰版,VMware版本是VMware-workstation-full-7.1.0,CentOS的版本是CentOS-6.0-i386,32位的(注意如果Windows本身是32位的,CentOS版本也应该选择32位的,否则会提示不支持,也可能

2014-03-18 17:41:57 709

原创 map和reduce 个数的设定 (Hive优化)经典

一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,

2014-03-18 17:39:31 808

原创 hive分区

原文地址:http://www.itpub.net/redirect.php?tid=1466017&goto=lastpost#所介绍内容基本上是翻译官方文档,比较肤浅,如有错误,请指正!hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。

2014-03-18 17:38:29 605

原创 关于union和join区别和联系

union和join是需要联合多张表时常见的关联词,具体概念我就不说了,想知道上网查就行,因为我也记不准确。先说差别:union对两张表的操作是合并数据条数,等于是纵向的,要求是两张表字段必须是相同的(Schema of both sides of union should match.)。也就是说如果A表中有三条数据,B表中有两条数据,那么A union B就会有五条数据。说明一下union 和

2014-03-18 17:35:52 1355

原创 hive 优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon A.key = B.

2014-03-18 17:32:29 519

原创 hive 配置参数说明

hive 配置参数说明hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈

2014-03-18 17:29:06 638

原创 Hive UDF 报错

java.lang.UnsupportedClassVersionError: org/apache/nutch/crawl/Crawl3 : Unsupported major.minor version 51.0 at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineCla

2014-03-18 17:27:08 2008

原创 vmware tools安装

vmware tools安装之后方便使用虚拟机,最常用的自动全屏和支持复制粘贴文件至虚拟机1  启动虚拟机,开始终端执行[plain] view plaincopyyum install gcc gcc-c++ gcc-gfortran -y  2 vmware菜单上VM->Install Vmware Tools

2014-03-18 17:18:40 678

原创 hive安装

一、查看需求安装java 1.6及hadoop 0.20.x二、安装hivetar -xf hive-x.y.z.tar.gz(本次安装为hive-0.8.1.tar.gz)将解压后的hive-0.8.1文件放在系统的/home/hadooptest/中。在/etc/profile中添加:export HIVE_HOME=/h

2014-03-18 17:17:21 603

原创 MR与Mysql交互

package testClass20140311;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;

2014-03-18 17:15:09 711

原创 Hadoop,MapReduce操作Mysql

前以前帖子介绍,怎样读取文本数据源和多个数据源的合并:http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html这一个博客介绍一下MapReduce怎样读取关系数据库的数据,选择的关系数据库为MySql,因为它是开源的软件,所以大家用的比较多。以前上学的时候就没有用过开源的软件,直接用盗版,也相当与免费,且比开源好用,

2014-03-18 17:12:12 503

原创 yum安装mysql

linux下使用yum安装mysql,以及启动、登录和远程访问。 1、安装查看有没有安装过:          yum list installed mysql*          rpm -qa | grep mysql* 查看有没有安装包:          yum list mysql* 安装mysql客户端:          yum insta

2014-03-18 17:08:13 749

转载 SecureCRT使用

1、SecureCRT简介   SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CRTTelnet客户机的所有特点,包括:自动注册、对不同主机保持不同的特性、打印功能

2014-03-18 16:54:37 2240

转载 Hadoop安装配置

1、集群部署介绍 1.1 Hadoop简介   Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。  对于Had

2014-03-18 15:58:31 766

转载 JDK和SSH无密码配置

1、Linux配置java环境变量 1.1 原文出处    地址:http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk  在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这时会出

2014-03-18 15:47:24 717

转载 Eclipse开发环境设置

1、Hadoop开发环境简介1.1 Hadoop集群简介  Java版本:jdk-6u31-linux-i586.bin  Linux系统:CentOS6.0  Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介  Java版本:jdk-6u31-windows-i586.exe  Win系统:Window

2014-03-18 15:43:55 1110

转载 WordCount运行详解

1、MapReduce理论简介 1.1 MapReduce编程模型  MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。  在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job

2014-03-18 15:39:09 703

Redis主从+哨兵模式部署.md

Redis主从+哨兵模式部署

2024-08-16

CDH6.3.2 Spark开发指南

Spark程序在CDH6.3.2环境下开发并运行

2024-08-16

datagrip连接phoenix教程

datagrip连接phoenix教程,DBeaver也可参考

2023-05-11

spark本地开发手册

spark本地开发手册及说明文档

2023-05-11

Azkaban安装与使用

Azkaban安装与使用

2023-05-11

Trino达梦插件开发

trino添加二次开发达梦插件

2023-05-11

linux命令手册

linux完整版中文帮助手册,可以快速的帮助,指导你查找运用命令

2014-02-26

完整版的easyui中文帮助手册

完整版Easyui中文手册,反正我用的很爽,信不信由你。

2014-02-26

poi实现对word的读写修改操作

利用poi强大的对office操作功能,有效的实现了对word的读写和修改功能!

2014-02-26

ssh_web所有相关的配置

java ssh_web所有的相关配置 web开发者神器

2013-08-07

企业人力资 源管理系统

毕业论文企业人力资源管理系统全套 有开题报告 任务书 论文 代码 答辩PPT 中期报告等。曾为学校优秀论文

2013-08-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除