自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(147)
  • 资源 (5)
  • 收藏
  • 关注

原创 hive中分组取前N个值的实现

需求:假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前2名数据如下表:id      clsno   score1       c1      202       c1      303       c1      404       c1      505       c1      8011      c1      8012      c1  ...

2012-03-28 15:49:06 1169

原创 hadoop状态分析系统chukwa(转)

Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。  概述 chukwa 的官方网站是这样描述自己的: c...

2012-03-21 15:23:14 232

原创 在CDH3上运行mahout的random forest算法时的异常处理

在应用apache mahout中的random forest分类的时候,报java.lang.IllegalStateException: java.io.EOFException异常。具体如下图: 这个错误发生是在训练出模型后,将模型存储的时候。原因是cloudera的hadoop版本在mapreduce 任务运行完后,会生成一个_SUCCESS目录,这将导致如上异常。  ...

2011-11-30 14:49:18 189

原创 FTP连接问题相关

  425 Security: Bad IP connecting.错误应对   ftp软件报此错误,估计是在连接中变换了ip编辑vsftp配置文档,位置:    /etc/vsftpd/vsftpd.conf在最后一行添加    pasv_promiscuous...

2011-11-15 11:35:49 224

原创 hbase-default.xml file seems to be for and old version 异常

 在应用java调用hbase的时候报异常:java.lang.RuntimeException: hbase-default.xml file seems to be for and old version of HBase (null), this version is 0.90.1-CDH3B4      at org.apache.hadoop.hbase.HBaseCon...

2011-09-13 17:53:51 270

原创 HBase加载大数据

一、概述HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载...

2011-09-13 16:30:24 156

原创 sqoop could not find any valid local directory 异常解决

在没有更改任何配置的情况下sqoop突然报警:org.apache.hadoop.util.diskchecker$diskerrorexception: could not find any valid local directory;原来是硬盘空间满了,占用到了100%;删除没用的数据后,sqoop能正常运行。   过了一天后,又报sqoop error reading task ...

2011-09-07 15:10:28 350

原创 hive 备忘录

1 hive结果用gzip压缩输出    在运行查询命令之前,设置下面参数:set mapred.output.compress=true;set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCod...

2011-08-24 14:56:04 91

原创 Hive User Defined Functions

Hive User Defined Functions Hive User Defined Functions (UDFs) fall into the following categories: (*)Built-in Operators Relational OperatorsAri...

2011-07-14 15:22:24 127

原创 mongodb blog website

http://www.hellophp.cn/ http://blog.izhoufeng.com/posts/tag/mongodb

2011-07-09 22:40:35 91

原创 HBase数据库性能调优

 因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。  配置优化  zookeeper.session.timeout  默认值:3分钟(180000ms)  说明:RegionServer与Zookeeper间的连接超时...

2011-07-07 20:49:16 178

原创 MongoDB数据库优化:Mongo Database Profiler

在MySQL中,慢查询日志是经常作为我们优化数据库的依据,那在MongoDB中是否有类似的功能呢?答案是肯定的,那就是Mongo Database Profiler.不仅有,而且还有一些比MySQL的Slow Query Log更详细的信息。它就是我们这篇文章的主题。  开启 Profiling 功能  有两种方式可以控制 Profiling 的开关和级别,第一种是直接在启动参...

2011-07-07 20:46:56 378

原创 谈正确理解 CAP 理论

转自:http://www.douban.com/group/topic/11765014/  CAP 理论在搞分布式的程序员中已经是路人皆知了。但是 CAP 理论就好比是相对论,虽然所有的人都知道,但是却没有多少人真正理解。 要真正理解 CAP 理论必须要读懂它的形式化描述。 形式化描述中最重要的莫过于对 Consistency, Availability, Partition-to...

2011-07-02 22:21:49 195

原创 MongoDB入门简介

MongoDB把数据存储在文件中(默认路径为:/data/db),为提高效率使用内存映射文件进行管理。安装:Linux/OS X下:1 建立数据目录 mkdir -p /data/db2 下载压缩包 curl -O http://downloads.mongodb.org/linux/mongodb-linux-i686-latest.tgz3 解压缩文件 tar xzf mongodb-li...

2011-06-24 18:51:50 77

原创 从MySQL到MongoDB简易对照表

查询:MySQL:SELECT * FROM userMongo:db.user.find()MySQL:SELECT * FROM user WHERE name = ’starlee’Mongo:db.user.find({‘name’ : ’starlee’})插入:MySQL:INSERT INOT user (`name`, `age`) values (’starlee’,25)Mo...

2011-06-24 18:48:08 126

原创 从mysql导出数据到mongodb数据库

转自:http://www.csser.com/dev/577.html CSSer.com采用的是wordpress程序,数据库为mysql,要想移植到MongoDB数据库,则需要进行数据转换。数据转移有多种方案,本质上需要将mysql数据转换为一种MongoDB可以直接导入的格式即可。MongoDB提供了mongoimport工具,可以支持导入json,csv的格式。先来看...

2011-06-22 10:06:40 634

原创 mongodb 工具

一、Mongo Live 是一个Chrome插件,安装后你可以指定你 MongoDB 的RESTFul接口的地址,然后它会画出实时的MongoDB 的操作操作执行曲线,非常方便。唯一需要注意的是你需要在启动MongoDB时指定–rest参数以开启RESTFul访问接口。   二、mongodb应用入门学习网站     ...

2011-06-19 07:07:39 109

原创 Instagram的实时图片Demo:Node.js, Redis 加 Web Sockets

Instagram刚刚公布其实时图片API的演示网站(http://demo.instagram.com/)的源码,这个网站是用Node.js、Redis加Web Sockets来做的,主要使用了Redis的pub/sub机制来进行消息推送。这里是instagram的源码.  http://wiki.joyent.com/display/no...

2011-06-19 06:53:22 134

原创 nosql fans 的几个博客和网站

http://www.nosqlnotes.net/ http://www.cnblogs.com/sunli/category/250681.html http://www.jdon.com/jivejdon/tags/8600 http://geekandpoke.typepad.com/geekandpoke/2011/01/nosql.html http:/...

2011-06-06 23:31:44 118

原创 the little mongodb book

一本新的mongodb操作手册:  

2011-06-06 23:08:06 106

原创 用户个人岛链

用户个人岛链 转自:http://www.techcn.com.cn/index.php?doc-view-157825.html 信息是一件很有意思的物品,它本身并无价值,只有当接收者接收之后,信息的价值才成立。同样,信息也不是越多越好,不被需要的信息连垃圾都不如——因为你还得接收到,阅读评估,得出它是不需要的这一结论,而这个过程中浪费掉的时间和脑力都不会得到任何收获。...

2011-05-29 23:11:41 129

原创 记录几个网站

http://www.techcn.com.cn/http://www.techfrom.com/http://blog.sciencenet.cn/home.php?mod=space&uid=64458http://www.loyhome.cn/ 社会网络分析:沈浩老师的博客:http://shenhaolaoshi.blog.sohu.com/...

2011-05-29 23:07:19 136

原创 网上羊群效应

转自;http://www.techcn.com.cn/index.php?doc-view-150409.html网上羊群效应 互联网是新事物层出不穷的地方,而网民如何采用软件、游戏等新事物的行为也成为一个研究焦点。英美研究人员日前针对著名社交网站“脸谱”(Facebook)用户的一项研究显示,网上行为容易跟风或从众,具有明显的“羊群效应”。 英国牛津大学和美国哈佛大学研究人员在新一期美国《国家...

2011-05-29 21:30:32 592

原创 hive数组使用

转:http://blog.sina.com.cn/s/blog_61c463090100rt4h.html 数据afan@ubuntu:/usr/local/hadoop/hive$ cat test.txt12,23,23,34   what,are,this34,45,34,23,12   who,am,i,areafan@ubuntu:/usr/loca...

2011-05-27 13:53:24 1630

原创 mongoDB在craigslist的应用及mysql实时导入mongodb工具

http://www.10gen.com/video/mongosv2010/craigslist  NoSQL很火,但要在真实环境中使用,可能很多人还有很多顾虑。一咱通常的做法是用写双份数据,先观察情况再决定是否迁移。下面一个工具对于那些想从MySQL迁移到MongoDB的同学可能是一个福音,这不是一个简单的导数据工具,而是实现将MySQL中的数据实时的同步到MongoDB中...

2011-05-19 22:59:36 203

原创 轻松组建自己的智能DNS系统 - wddns 1.0版本发布

wddns是一套用PHP开发,可在线管理dns/智能DNS的系统,集成了bind-dlz+mysql的安装配置.安装方便,快速,让你在最短时间内架构一套DNS/智能DNS系统.目前只支持单线/双线(电信/网通)的架构,以后会向多线多地区扩展.配合wdcdn,即可组建的自己CDN系统了.甚至可以架构一套大型或N多节点的CDN系统了. wddns是做为wdcp的模块方式安装用的,也就是说,...

2011-05-19 22:46:10 132

原创 BI资料

http://www.chinabi.net/blog/user1/105/archives/2007/1410.html http://www.open-open.com/72.htm http://code.google.com/p/olap4cloud/ http://www.blogjava.net/sterning/archive/2007/11/05/15823...

2011-05-14 19:13:35 124

原创 反NoSQL的呼声(转)

CAP的崩溃 CAP猜想可是NoSQL的基石。上图非常有意思,他从CAP,和数据库种类两个方向对NoSQL进行了分类。Consistent, Available (CA) Systems 。在分布式方面有些问题,通常是通过复制来解决的。包括Traditional RDBMSs like Postgres, MySQL, etc (relational)Ve...

2011-04-25 15:24:15 96

原创 nosql 资源(转)

NoSQL 是非关系型数据存储的广义定义。它打破了长久以来关系型数据库与 ACID 理论大一统的局面。NoSQL 数据存储不需要固定的表结构,通常也不存在连接 操作。在大数据存取上具备关系型数据库无法比拟的性能优势。该术语在 2009 年初得到了广泛认同。当今的应用体系结构需要数据存储在横向伸缩性 上能够满足需求。而 NoSQL 存储就是为了实现这个需求。Google 的...

2011-04-25 15:08:43 130

原创 论文:nosql database

很长地论文,写地不错。

2011-04-24 16:16:09 219

原创 图形化理解 HBase 数据写操作、压缩操作过程

HBase 写数据的过程是:先写到内存中(memstore),当内存中的数据达到一定大小,将内存中的数据一次性flush到磁盘上形成数据文件。期间对每一次写操作,都会记一个持久化的日志。那些 flush 到磁盘上的文件,会定时进行压缩。下图形像地说明这一系列过程:原文链接:http://goo.gl/jwKdj...

2011-04-24 15:19:51 159

原创 Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files

今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正):1.Hadoop’s SequenceFileSequenceFile 是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统...

2011-04-24 15:06:26 95

原创 百度Hadoop分布式系统揭秘:4000节点集群

在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。百度的高性能计算系统(主要是后端...

2011-04-24 14:54:26 185

原创 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatExc

namenode莫名奇妙的启动不了,看log:2011-04-19 12:06:59,967 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 114712011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.common.Storage: ...

2011-04-19 19:20:41 646

原创 digg网站架构及应用技术介绍

http://about.digg.com/blog/how-digg-is-built 看到digg开发人员Dave Beckett 的博客How Digg is Built ,记录两张图片参考一下digg应用的技术:  

2011-04-08 20:43:26 134

原创 zookeeper安装

前提是已经安装好HADOOP(020.2):tar -zxvf zookeeper-3.3.2.tar.gzcd zookeeper-3.3.2.tar.gzmv * /hadoop/zookeepercd /hadoop/zookeeperzookeeper要部署到各台机器的相同目录下,且具有相同的配置文件。Zookeeper 的配置文件主要有以下两个:1、/hadoop/zoo...

2011-04-01 16:27:17 83

原创 sqoop应用错误记录

  Connection refused   解决: 1   mysql用户名和密码确认正确2   mysql上有集群所有节点的访问授权 

2011-04-01 16:26:03 74

原创 What Future Does Facebook Have?

http://delong.typepad.com/sdj/2011/01/wht-future-does-facebook-have.html 总结得不错,记录两句。The key question that everybody has when they go to the world wide web is a simple one: "What do I need to kno...

2011-03-25 11:40:18 117

原创 如何获取hive建表语句

在使用hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby等,这里我们以mysql为元数据库,结合0.4.2版本的hive为例进行研究。连接上mysql后可以看到hive元数据对应...

2011-03-22 15:35:42 819

原创 HFile存储格式

HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括两种文件类型:1. HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile2. HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上...

2011-03-21 19:26:01 882

微软C编程精粹.pdf

微软C编程精粹.pdf 微软C编程精粹.pdf 微软C编程精粹.pdf 微软C编程精粹.pdf

2010-07-04

设计模式精解.pdf.pdf

设计模式精解 设计模式精解 设计模式精解.pdf 设计模式精解.pdf

2010-07-04

Spring2.5.jar

对于工作流引擎jbpm4.3,其余spring集成所需要的版本不能过低,2.5版本可以满足集成需要

2010-04-02

XenServer4.1.0控制台安装配置手册.rar

XenServer4.1.0控制台安装配置手册.rar

2009-12-11

代码之美(中文)--优秀的开发人员提炼出的有价值的思想

Andy Oram,Grey Wilson著

2009-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除