- 博客(147)
- 资源 (5)
- 收藏
- 关注
原创 hive中分组取前N个值的实现
需求:假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前2名数据如下表:id clsno score1 c1 202 c1 303 c1 404 c1 505 c1 8011 c1 8012 c1 ...
2012-03-28 15:49:06 1169
原创 hadoop状态分析系统chukwa(转)
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。 概述 chukwa 的官方网站是这样描述自己的: c...
2012-03-21 15:23:14 232
原创 在CDH3上运行mahout的random forest算法时的异常处理
在应用apache mahout中的random forest分类的时候,报java.lang.IllegalStateException: java.io.EOFException异常。具体如下图: 这个错误发生是在训练出模型后,将模型存储的时候。原因是cloudera的hadoop版本在mapreduce 任务运行完后,会生成一个_SUCCESS目录,这将导致如上异常。 ...
2011-11-30 14:49:18 189
原创 FTP连接问题相关
425 Security: Bad IP connecting.错误应对 ftp软件报此错误,估计是在连接中变换了ip编辑vsftp配置文档,位置: /etc/vsftpd/vsftpd.conf在最后一行添加 pasv_promiscuous...
2011-11-15 11:35:49 224
原创 hbase-default.xml file seems to be for and old version 异常
在应用java调用hbase的时候报异常:java.lang.RuntimeException: hbase-default.xml file seems to be for and old version of HBase (null), this version is 0.90.1-CDH3B4 at org.apache.hadoop.hbase.HBaseCon...
2011-09-13 17:53:51 270
原创 HBase加载大数据
一、概述HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载...
2011-09-13 16:30:24 156
原创 sqoop could not find any valid local directory 异常解决
在没有更改任何配置的情况下sqoop突然报警:org.apache.hadoop.util.diskchecker$diskerrorexception: could not find any valid local directory;原来是硬盘空间满了,占用到了100%;删除没用的数据后,sqoop能正常运行。 过了一天后,又报sqoop error reading task ...
2011-09-07 15:10:28 350
原创 hive 备忘录
1 hive结果用gzip压缩输出 在运行查询命令之前,设置下面参数:set mapred.output.compress=true;set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCod...
2011-08-24 14:56:04 91
原创 Hive User Defined Functions
Hive User Defined Functions Hive User Defined Functions (UDFs) fall into the following categories: (*)Built-in Operators Relational OperatorsAri...
2011-07-14 15:22:24 127
原创 mongodb blog website
http://www.hellophp.cn/ http://blog.izhoufeng.com/posts/tag/mongodb
2011-07-09 22:40:35 91
原创 HBase数据库性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时...
2011-07-07 20:49:16 178
原创 MongoDB数据库优化:Mongo Database Profiler
在MySQL中,慢查询日志是经常作为我们优化数据库的依据,那在MongoDB中是否有类似的功能呢?答案是肯定的,那就是Mongo Database Profiler.不仅有,而且还有一些比MySQL的Slow Query Log更详细的信息。它就是我们这篇文章的主题。 开启 Profiling 功能 有两种方式可以控制 Profiling 的开关和级别,第一种是直接在启动参...
2011-07-07 20:46:56 378
原创 谈正确理解 CAP 理论
转自:http://www.douban.com/group/topic/11765014/ CAP 理论在搞分布式的程序员中已经是路人皆知了。但是 CAP 理论就好比是相对论,虽然所有的人都知道,但是却没有多少人真正理解。 要真正理解 CAP 理论必须要读懂它的形式化描述。 形式化描述中最重要的莫过于对 Consistency, Availability, Partition-to...
2011-07-02 22:21:49 195
原创 MongoDB入门简介
MongoDB把数据存储在文件中(默认路径为:/data/db),为提高效率使用内存映射文件进行管理。安装:Linux/OS X下:1 建立数据目录 mkdir -p /data/db2 下载压缩包 curl -O http://downloads.mongodb.org/linux/mongodb-linux-i686-latest.tgz3 解压缩文件 tar xzf mongodb-li...
2011-06-24 18:51:50 77
原创 从MySQL到MongoDB简易对照表
查询:MySQL:SELECT * FROM userMongo:db.user.find()MySQL:SELECT * FROM user WHERE name = ’starlee’Mongo:db.user.find({‘name’ : ’starlee’})插入:MySQL:INSERT INOT user (`name`, `age`) values (’starlee’,25)Mo...
2011-06-24 18:48:08 126
原创 从mysql导出数据到mongodb数据库
转自:http://www.csser.com/dev/577.html CSSer.com采用的是wordpress程序,数据库为mysql,要想移植到MongoDB数据库,则需要进行数据转换。数据转移有多种方案,本质上需要将mysql数据转换为一种MongoDB可以直接导入的格式即可。MongoDB提供了mongoimport工具,可以支持导入json,csv的格式。先来看...
2011-06-22 10:06:40 634
原创 mongodb 工具
一、Mongo Live 是一个Chrome插件,安装后你可以指定你 MongoDB 的RESTFul接口的地址,然后它会画出实时的MongoDB 的操作操作执行曲线,非常方便。唯一需要注意的是你需要在启动MongoDB时指定–rest参数以开启RESTFul访问接口。 二、mongodb应用入门学习网站 ...
2011-06-19 07:07:39 109
原创 Instagram的实时图片Demo:Node.js, Redis 加 Web Sockets
Instagram刚刚公布其实时图片API的演示网站(http://demo.instagram.com/)的源码,这个网站是用Node.js、Redis加Web Sockets来做的,主要使用了Redis的pub/sub机制来进行消息推送。这里是instagram的源码. http://wiki.joyent.com/display/no...
2011-06-19 06:53:22 134
原创 nosql fans 的几个博客和网站
http://www.nosqlnotes.net/ http://www.cnblogs.com/sunli/category/250681.html http://www.jdon.com/jivejdon/tags/8600 http://geekandpoke.typepad.com/geekandpoke/2011/01/nosql.html http:/...
2011-06-06 23:31:44 118
原创 用户个人岛链
用户个人岛链 转自:http://www.techcn.com.cn/index.php?doc-view-157825.html 信息是一件很有意思的物品,它本身并无价值,只有当接收者接收之后,信息的价值才成立。同样,信息也不是越多越好,不被需要的信息连垃圾都不如——因为你还得接收到,阅读评估,得出它是不需要的这一结论,而这个过程中浪费掉的时间和脑力都不会得到任何收获。...
2011-05-29 23:11:41 129
原创 记录几个网站
http://www.techcn.com.cn/http://www.techfrom.com/http://blog.sciencenet.cn/home.php?mod=space&uid=64458http://www.loyhome.cn/ 社会网络分析:沈浩老师的博客:http://shenhaolaoshi.blog.sohu.com/...
2011-05-29 23:07:19 136
原创 网上羊群效应
转自;http://www.techcn.com.cn/index.php?doc-view-150409.html网上羊群效应 互联网是新事物层出不穷的地方,而网民如何采用软件、游戏等新事物的行为也成为一个研究焦点。英美研究人员日前针对著名社交网站“脸谱”(Facebook)用户的一项研究显示,网上行为容易跟风或从众,具有明显的“羊群效应”。 英国牛津大学和美国哈佛大学研究人员在新一期美国《国家...
2011-05-29 21:30:32 592
原创 hive数组使用
转:http://blog.sina.com.cn/s/blog_61c463090100rt4h.html 数据afan@ubuntu:/usr/local/hadoop/hive$ cat test.txt12,23,23,34 what,are,this34,45,34,23,12 who,am,i,areafan@ubuntu:/usr/loca...
2011-05-27 13:53:24 1630
原创 mongoDB在craigslist的应用及mysql实时导入mongodb工具
http://www.10gen.com/video/mongosv2010/craigslist NoSQL很火,但要在真实环境中使用,可能很多人还有很多顾虑。一咱通常的做法是用写双份数据,先观察情况再决定是否迁移。下面一个工具对于那些想从MySQL迁移到MongoDB的同学可能是一个福音,这不是一个简单的导数据工具,而是实现将MySQL中的数据实时的同步到MongoDB中...
2011-05-19 22:59:36 203
原创 轻松组建自己的智能DNS系统 - wddns 1.0版本发布
wddns是一套用PHP开发,可在线管理dns/智能DNS的系统,集成了bind-dlz+mysql的安装配置.安装方便,快速,让你在最短时间内架构一套DNS/智能DNS系统.目前只支持单线/双线(电信/网通)的架构,以后会向多线多地区扩展.配合wdcdn,即可组建的自己CDN系统了.甚至可以架构一套大型或N多节点的CDN系统了. wddns是做为wdcp的模块方式安装用的,也就是说,...
2011-05-19 22:46:10 132
原创 BI资料
http://www.chinabi.net/blog/user1/105/archives/2007/1410.html http://www.open-open.com/72.htm http://code.google.com/p/olap4cloud/ http://www.blogjava.net/sterning/archive/2007/11/05/15823...
2011-05-14 19:13:35 124
原创 反NoSQL的呼声(转)
CAP的崩溃 CAP猜想可是NoSQL的基石。上图非常有意思,他从CAP,和数据库种类两个方向对NoSQL进行了分类。Consistent, Available (CA) Systems 。在分布式方面有些问题,通常是通过复制来解决的。包括Traditional RDBMSs like Postgres, MySQL, etc (relational)Ve...
2011-04-25 15:24:15 96
原创 nosql 资源(转)
NoSQL 是非关系型数据存储的广义定义。它打破了长久以来关系型数据库与 ACID 理论大一统的局面。NoSQL 数据存储不需要固定的表结构,通常也不存在连接 操作。在大数据存取上具备关系型数据库无法比拟的性能优势。该术语在 2009 年初得到了广泛认同。当今的应用体系结构需要数据存储在横向伸缩性 上能够满足需求。而 NoSQL 存储就是为了实现这个需求。Google 的...
2011-04-25 15:08:43 130
原创 图形化理解 HBase 数据写操作、压缩操作过程
HBase 写数据的过程是:先写到内存中(memstore),当内存中的数据达到一定大小,将内存中的数据一次性flush到磁盘上形成数据文件。期间对每一次写操作,都会记一个持久化的日志。那些 flush 到磁盘上的文件,会定时进行压缩。下图形像地说明这一系列过程:原文链接:http://goo.gl/jwKdj...
2011-04-24 15:19:51 159
原创 Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files
今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正):1.Hadoop’s SequenceFileSequenceFile 是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统...
2011-04-24 15:06:26 95
原创 百度Hadoop分布式系统揭秘:4000节点集群
在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。百度的高性能计算系统(主要是后端...
2011-04-24 14:54:26 185
原创 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatExc
namenode莫名奇妙的启动不了,看log:2011-04-19 12:06:59,967 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 114712011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.common.Storage: ...
2011-04-19 19:20:41 646
原创 digg网站架构及应用技术介绍
http://about.digg.com/blog/how-digg-is-built 看到digg开发人员Dave Beckett 的博客How Digg is Built ,记录两张图片参考一下digg应用的技术:
2011-04-08 20:43:26 134
原创 zookeeper安装
前提是已经安装好HADOOP(020.2):tar -zxvf zookeeper-3.3.2.tar.gzcd zookeeper-3.3.2.tar.gzmv * /hadoop/zookeepercd /hadoop/zookeeperzookeeper要部署到各台机器的相同目录下,且具有相同的配置文件。Zookeeper 的配置文件主要有以下两个:1、/hadoop/zoo...
2011-04-01 16:27:17 83
原创 What Future Does Facebook Have?
http://delong.typepad.com/sdj/2011/01/wht-future-does-facebook-have.html 总结得不错,记录两句。The key question that everybody has when they go to the world wide web is a simple one: "What do I need to kno...
2011-03-25 11:40:18 117
原创 如何获取hive建表语句
在使用hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby等,这里我们以mysql为元数据库,结合0.4.2版本的hive为例进行研究。连接上mysql后可以看到hive元数据对应...
2011-03-22 15:35:42 819
原创 HFile存储格式
HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括两种文件类型:1. HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile2. HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上...
2011-03-21 19:26:01 882
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人