自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 资源 (3)
  • 收藏
  • 关注

翻译 cloudera建议的datanode配置

<br />Typical ‘base’ configuration for a slave Node<br /><br />– 4 x 1Tb hard drives, in a JBOD* configuration<br />– Do not use RAID! (See later)<br />– 2 x Quad-core CPUs, each 2.0GHz to 2.5GHz<br />– 16Gb RAM<br />– Gigabit Ethernet<br /> <br />翻译过来就是:<

2011-05-09 22:29:00 2670 1

原创 hbase中服务器时间不同步造成的regionserver启动失败

      今天配置hbase的时候发现有几台机器的regionserver启不来。报错如下:        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)        at sun.reflect.Del

2011-05-09 17:10:00 5036

原创 Ganglia安装详解(CentOS_5.5_Final版)

1. 安装rrdtool1.1. 安装依赖包Ø 拷贝CentOS软件包将CentOS安装光盘中的rpm包拷贝到/root/下,以备使用。Ø 安装zlib开发包rpm -ivh /root/CentOS/zlib-devel-1.2.3-3.x86_64.rpm

2011-04-29 15:13:00 5426 4

原创 hadoop集群批量快速安装

今天是我生日,在博客里放送出2份非常实用的文档。hadoop、hbase批量安装和ganglia安装配置详解。首先第一篇。 hadoop批量安装前先将namenode,Hmaster机器安装完毕。然后准备以下文件 1、hadoop-0.20.2-CDH3B4.tar.gz 2、hbase-0.90.1-CDH3B4.tar.gz 3、hosts 4、profile 5、hbaseconf(这个是hbase中的conf文件夹的拷贝) 6、hadoopconf(这个是hadoop中conf文件夹

2011-04-29 12:33:00 4068 1

原创 Hbase几种数据入库(load)方式比较

1. 预先生成HFile入库 这个地址有详细的说明http://blog.csdn.net/dajuezhao/archive/2011/04/26/6365053.aspx 2. 通过MapReduce入库 /* MapReduce 读取hdfs上的文件,以HTable.

2011-04-29 12:00:00 23694 4

原创 将本地文件目录移动(或cp)到hdfs下shell脚本

写了一下脚本,实现了以下功能: 1、保证同一时间只有一个该脚本的实例在运行,避免造成操作冲突 2、移动本地文件目录到hdfs下,目录路径相同 uploadtoHadoop.sh #!/bin/bash #pid=`ps -ef | grep -v grep | grep uploadtoHadoop | awk '{print $2}'` pid=`ps -ef | grep -v grep | grep uploa

2011-04-27 17:06:00 5479 1

转载 脚本不输密码执行scp命令(需要expect和send命令)

<br />脚本如下:<br /><br />#!/usr/bin/expect -f<br /><br />set password 密码<br /><br />spawn scp 用户名@目标机器ip:拷贝文件的路径 存放本地文件的路径 <br />set timeout 300 <br />expect "用户名@目标机器ip's password:" #注意:这里的“用户名@目标机器ip” 跟上面的一致<br />set timeout 300 <br />send "$password/r"<br

2011-04-27 16:36:00 6221

原创 hbase与mapreduce同时运行的问题

<br />      在hbase数据写入和mapreduce同时运行时出现hbase regionserver挂掉的问题,同时hdfs上的文件块出现miss。<br />      目前看来mapreduce和hbase同时运行时出现的一个问题就是内存竞争

2011-04-19 13:39:00 3575 3

转载 SQL到NOSQL的思维转变

介绍了传统关系数据库和现在的nosql的一些对比,解释了互联网业界为什么会有rmdb-》nosql的思路转变

2011-04-15 20:30:00 1425

原创 Hbase入库因素小结(停止更新)

一、硬件因素Ø 内存Hbase对内存有特别的嗜好,因为内存越大,regionserver接受客户端传递来的数据时可以在内存中做缓存(memstore)以及排序,分配给region等操作的限度更大,相当于利用内存作为缓冲池,组织好hbase需要的数据之后再统一写的顺序写硬盘。*推荐32GB内存Ø CPUCPU参与边界计算以及数据排序等操作,当内存非常大时,CPU对内存中数据的组织

2011-04-15 08:17:00 11468 10

原创 HBase0.89常用API接口使用

HTable:这个是table对象,通过他来完成对hbase表的各种操作,删除,更新,创建,查询 RowFilter:对rowkey过滤查询的类 QualifierFilter:对子列做过滤查询的类 FilterList:复合filter的实现类 Get:rowkey定位器 Scan:查询扫描器 ResultScanner:查询结果扫描器 Result:单个查询结果 KeyValue:查询结果中的keyvalue原子项 //场景一,通过rowkey,列族,子列直接定位value

2011-04-14 18:36:00 5423

原创 Hadoop0.21.0编译手册

目录 Hadoop0.21.0编译手册... 1 1. 安装环境及基本准备... 3 2. 安装Cygwin. 4 3. 编译common模块... 10 A. 导入工程... 10 B. 修改编译器设置... 10 C. 编译工程... 13 4. Hdfs和mapreduce模块编译... 15 5. 验证编译结果... 17   1. 安装环境及基本准备 操作系统:windows xp IDE: eclipse JDK:1.6以上版本,需配置好JAVA_HOME以及Path

2011-04-14 13:56:00 2304

原创 如何根据cpu的processor数来确定程序的并发线程数量

我们可以在cat 里面发现processor数量,这里的processor可以理解为逻辑上的cpu。 这里摘抄的一段blog来说明: 什么是线程池大小的阻抗匹配原则? 我在《常用模型》中提到“阻抗匹配原则”,这里大致讲一讲。 如果池中线程在执行任务时,密集计算所占的时间比重为 P (0

2011-03-04 15:59:00 5125

原创 hbase培训ppt

      最近在研究hbase,今天要在公司里对hbase做简要介绍,写了一篇ppt。下面整理一下我的演讲思路       定位:由于这次演讲是针对普通程序员和nosql相关程序员两个群体同时进行,那么需要兼顾演讲的易理解性,以及部分技术深度。       我的思路如下: 1、 基于hdfs,继承了可靠性、高性能、可伸缩性。自己又有特点:列存储,实时读写,是一个数据库。 2、 数据库系统并不是孤立的,有必要介绍一下他在整个hadoop体系中的位置 3、 举例子方便大家理解:mysql-ntfs约

2011-03-04 15:54:00 5051 7

原创 hadoop0.21.0中提供的测试工具

我们常常需要对HDFS或者mapreduce进行一些性能方面的测试,比如测试rpc的性能,测试DFS的IO读写性能,测试DFS的吞吐率性能,测试namenode的benchmark性能,mapreduce的sort性能等等。在hadoop的发行版中,其实已经提供了许多类似的工具,并已经打包成jar,供我们使用。以下是0.20.2中自带的一系列工具列表: DFSCIOTest Distributed i/o benchmark of libhdfs. DistributedFSCheck Distri

2011-01-17 15:52:00 2201

原创 hadoop性能调优的一些笔记

1、同构机器表现优于异构,即使在良好集群中添加差的机器也会整个拖慢集群的效率,可能有些方法进行调整,但是作为私有云最好不用异构 2、入库机器需要大于datanode节点的数量,实测的数据是单节点100MB/s ,2节点实测数据是136MB/s,由于总共就5台机器,所以无法测3节点入库速率。 3、job执行的时候,当跑1.3T的数据时总共耗时3小时40分钟。在5台节点机的情况下相当理想

2011-01-12 15:54:00 1575 3

原创 linux一些硬件详情查看的高级方法(网卡,内存,硬盘,cpu)

网卡-lspci 内存大小和个数—— dmidecode|grep -A16 "Memory Device$" 查看硬盘型号——smartctl -a /dev/sda 查看硬盘大小——fdisk -l 查看硬盘挂载——df -h 查看cpu信息——cat /proc/cpuinfo

2011-01-11 15:53:00 1438

原创 mapreduce中map和reduce的最大并发数量设置

     reduce数量究竟多少是适合的。目前测试认为reduce数量约等于cluster中datanode的总cores的一半比较合适,比如cluster中有32台datanode,每台8 core,那么reduce设置为128速度最快。因为每台机器8 core,4个作map,4个作reduce计算,正好合适。       以上所说的是总的map和reduce数,那么具体到每台机器的最大并发map/reduce应该就以该机器的cores数/2合适

2011-01-07 15:52:00 4801

转载 hadoop 中MapReduce因为文件打开文件数目超过linux限制报错

haoop中mapreduce报错 java.io.IOException: All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting… at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.processDatanodeError(DFSClient.java:2158) at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.access$1400(DFSCl

2011-01-07 15:51:00 2914

原创 FileInputFormat分析

一.程序简介 在mapreduce程序运行的开始阶段,hadoop需要将待处理的文件进行切分,按定义格式读取等操作,这些操作都在InputFormat中进行。 InputFormat是一个抽象类,他含有getSplits()和createRecordReader()抽象方法,在子类中必须被实现。这两个就是InputFormat的基本方法。getSplits()确定输入对象的切分原则,而createRecordReader()则可以按一定格式读取相应数据。 二.程序详细分析 FileInputForm

2010-12-17 10:34:00 2876

原创 hbase入库效率提升研究(一)

      最近在研究hbase,查询效率确实不错,不过入库效率不理想,今天周五就小结以下。       hbase使用java 的api入库很简单:       Configuration conf = HBaseConfiguration.create();       HTable table = new HTable();       Put p = new Put("表名");       p.add(("族列名").getBytes(), "字段名".getBytes(),"值".ge

2010-12-10 15:48:00 8100 4

原创 hive的jdbc数据库连接

package org.apache.hadoop.hive.cli; import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.Statement; import java.sql.ResultSet; import java.sql.ResultSetMetaData; import java.uti

2010-09-15 15:40:00 3335

原创 linux实用命令(不断添加)

1、df 查看磁盘状况 2、tree查看文件目录树状结构 3、ftp,scp文件传输 4、ping tracert(root 可用) 追踪路由 5、su提示权限 top查看系统信息

2010-06-25 15:39:00 689

原创 MySql学习心得

      前几天去面试,被鄙视了一把,唉。自己的差距还很大呀,不过没关系,一天进步一点点,加油!!!       一、mysql一些比较常用的命令要记熟:       1.mysql -h -u -p       2.mysqladmin -u -p password       3.grant select on db.table to 用户名@登陆主机 identified by /"密码 /" with grant option       4.udpate user set passwo

2010-06-23 15:46:00 1319

转载 “云计算”的双刃剑只会出现在中国

刚吃完饭,在cnbeta上就看到一篇文章,名叫“云计算”的双刃剑:FBI探员不必知会嫌犯即可随意搜查嫌犯的谷歌Docs账户。看完之后唯一的感想是,这篇文章是想说明Google守法呢,还是想说明Google其实是作恶的?我不愿妄加揣测说是后一种目的,我们姑且认为文章其实是想提醒读者,Google其实是很守法的,Google不是暴力抗法者。 有人要问了,Google前端时间不是就是因为政府审查的原因才推出大陆么,现在为啥美国FBI要什么它给什么?两面派阿?其实不然。说起这个,我们就得先看看原文是如何陈述的。

2010-06-23 15:43:00 1179

转载 TCP协议三次握手过程分析

TCP(Transmission Control Protocol) 传输控制协议 TCP是主机对主机层的传输控制协议,提供可靠的连接服务,采用三次握手确认建立一个连接: 位码即tcp标志位,有6种标示:SYN(synchronous建立联机) ACK(acknowledgement 确认) PSH(push传送) FIN(finish结束) RST(reset重置) URG(urgent紧急) Sequence number(顺序号码) Acknowledge number(确认号码) 第一次握手

2010-06-23 15:38:00 1095

原创 晕计算中的一点云

      看来搞咱们IT的就围绕着3样东西打转,存储,计算,传输。冯氏计算机体系多年来没有人突破过。 其实一直没搞懂数据结构和算法究竟怎样的才算是好的。今天突然有点想法,能够将硬件条件和产品需求完美结合的数据结构和算法才是好的。       所以数据结构和算法不是凭空想出来的,一定是从硬件和产品需求角度来考虑的。从硬件上现在有两个基本方向。       第一个是基于单机中的硬盘,CPU,内存来进行算法优化,比如硬盘的寻道速度远远低于顺序访问速度,这点催生了列式数据库的设计。CPU通过中断机制来实现伪多

2010-04-23 15:56:00 792

原创 列存数据库学习心得

    数据库以行、列的二维表的形式存储数据,但是却以一维字符串的方式存储,例如下表: EmpId Lastname Firstname Salary 1         Smith          Joe         40000 2          Jones        Mary       50000 3        Johnson      Cathy      44000 这个表存储在电脑的内存和硬盘中。数据库必须把这个二维表存储在一系列的一维“字节”中,又操作系统写到内存或

2010-04-23 15:34:00 3893

原创 Log4j异步存储日志

      在网上看了几篇文章,对Log4j异步存储机制有一定了解。AsyncAppender——它是自己收集所有的events到一个buffer中,再用一个单独的线程来服务(dispatch)收集过来的events到具体的appender来真正记录日志。(需要注意的是这个类只能通过xml的方法来配置使用)       浏览一下这个类的代码可以看出。它默认用一个大小为128的arraylist来作为event收集的buffer。别起了一个daemon thread来做diaptch event.而这个类

2010-04-14 15:59:00 5092

原创 一致性算法研究

一、Master/slave 这个是多机房数据访问最常用的方案,一般的需求用此方案即可。因此大家也经常提到“premature optimization is the root of all evil”。 优点:利用mysql replication即可实现,成熟稳定。 缺点:写操作存在单点故障,master坏掉之后slave不能写。另外slave的延迟也是个困扰人的小问题。 二、Multi-master Multi-master指一个系统存在多个master, 每个master

2010-03-30 15:35:00 1222

转载 列式数据库存储

网址: http://www.penglixun.com/tech/database/column-oriented_dbms_analyse.html 这些天看数据仓库的内容,发现一个新内容——列式存储。曾经有想过把数据库行列转置作成索引,不过没有深想,没想到列式数据库已经开始发展起来了。 首先看下WIKI上对列式数据库的解释: 列式数据库是以列相关存储架构进行数据存储的数据库,主要适合与批量数据处理和即席查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合与小批量

2010-03-30 15:32:00 5754

原创 java快速计算文本文件行数

File test= new File("test.txt"); long fileLength = test.length(); LineNumberReader rf = null; try { rf = new LineNumberReader(new FileReader(test)); if (rf != null) { int lines = 0; rf.skip(fileLength); lines = rf.getLineNumb

2010-03-23 15:24:00 19562 3

原创 mysql优化文章

MySql 性能到底能有多高?用了php半年多,真正如此深入的去思考这个问题还是从前天开始。有过痛苦有过绝望,到现在充满信心!MySql 这个数据库绝对是适合dba级的高手去玩的,一般做一点1万篇新闻的小型系统怎么写都可以,用xx框架可以实现快速开发。可是数据量到了10万,百万至千万,他的性能还能那么高吗?一点小小的失误,可能造成整个系统的改写,甚至更本系统无法正常运行!好了,不那么多废话了。用事实说话,看例子: 数据表 collect ( id, title ,info ,vtype) 就这4个字段,其

2010-03-01 15:35:00 979

原创 ant将多个jar打包为一个jar

      ant中的build.xml主要标签如下: (1)创建文件夹 (1)拷贝文件 (2) 编译java文件     (3)打包class文件 (3)解压缩jar包       具体用法网上有很多,不过有一用法很值得一提,就是将多个jar包打成一个大的jar包,代码如下:                                                       

2010-01-16 15:28:00 1295

原创 sql小技巧+antlr关键字问题

    SQL查看表是否存在: show tables like '表名';     之前对antlr添加了create user功能,想要创建一个叫user的用户就会语法报错,研究了一下发现是我把为了写语法把'user' 定义成了KW_USER关键字,导致antlr的Identifier类型对用户输入关键字不接受。解决办法是将'user '定义成KW_USER关键字,(注意,这次user后面带了一个空格)这是利用了antlr对空格不敏感的特点,这样user就可以当Identifier使用了。    

2010-01-05 15:46:00 2042

转载 云计算好文

一、“网格计算”与“云计算” 刚进计算机学院时,听到最多的一个词就是“网格计算”,而在我还没弄清“网格计算”到底是什么的时候,“云计算”已不知不觉成为新的热门。第一次听到“云计算”这个词是因为自己想备份电脑上的一些资料,但身边又找不到移动硬盘和光盘,去找同学借光盘时,同学说可以试试在线备份,在线搜索后,我惊奇的发现自己早已经在云端之中了,原来我用Gmail来发送邮件时,已经是在云端环境中存放自己的资料了。在刚听到“云计算”这个名词时,我对它与网格计算间的差别还是很模糊的,当时在我看来,两者似乎都是通过把分

2009-12-02 15:37:00 813

转载 移动互联网十大前景看好业务

一、 移动社交将成为客户数字化生存的平台 在移动网络虚拟世界里面,服务社区化将成为焦点。社区可以延伸出不同的用户体验,提高用户对企业的黏性。3G商用的明朗化和手机本身所具备的优势将成为移动SNS发展的动力。宽带的增加将促使移动互联网的服务创新,用户的许多需求将在手机上得到满足; 而手机具有随时随地沟通的特点,从而使SNS在移动领域发展具有一定的先天优势。核心以个人空间(相册/日记)、多元化沟通平台、群组及关系为核心的移动SNS手机社交将发展迅猛。 二、 移动广告将是移动互联网盈利主要来源 手机逐

2009-11-05 15:26:00 944

原创 虚拟机下linux+java+hadoop+hive环境搭建

      最近在接触hadoop的项目,把总结出的配置方法写出来纪念一下,也方便后来人快速玩转hadoop。       首先在虚拟机中安装linux,我是用的redhad,然后装jdk:http://yushan.javaeye.com/blog/261148,接下来是关键部分: 一、hadoop安装:下载release版本hadoop0.20.1,解压到/home/hadoop/ 。 1.命令行下运行 #mkdir input cp conf/*.xml input bin/hadoop

2009-10-19 15:35:00 3175

原创 HIVE的学习笔记

hive原来是hadoop开源项目中的一个子模块,hadoop0.20以后独立出来成为单独项目,不过安装时还是要指定hadoop路径:export HADOOP_HOME=,看看都有些什么命令吧: hive> CREATE TABLE pokes (foo INT, bar STRING);//建表 hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);//创建可分区表 hive> SHOW TABLE

2009-09-30 15:36:00 1471

原创 Spring 初学

Ioc容器为spring的核心,集成jdbc,aop,hibernate,structs以及JEE应用的一个大型管理框架。

2009-08-21 15:35:00 523

hbase培训ppt

本人总结的hbase入门+提高培训ppt,对于对初级人员进行hbase培训,讲解思路在我的一篇博文中:http://blog.csdn.net/kirayuan/article/details/6321966#reply

2013-05-22

控制原理课件和试卷完整版

考自控原理的非控制专业人员适用,考试必备。 包含往届考试题目,来源华工计算机学院

2008-12-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除