chengzhewang-CSDN博客

原创 MySQL查询今天，最近7天，最近30天，本月，上个月的数据

其中一个故事story的表，存储故事添加的时间是create_time,查询今天添加的文章总数并且按时间从大到小排序，查询如下：如果create_time为2015-01-20 14:02:22样式：select * from story where DATE_FORMAT(create_time,'%Y-%m-%d')= DATE_FORMAT(now(),'%Y-%m-%d') ord

2015-01-20 15:40:55 2303

转载 Hbase热点问题

当处理由连续事件得到的数据时，即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不均衡分布，它们被存储在一个唯一的rowkey区间中，被称为region，区间的范围被称为Start Key和End Key。对于单调递增的时间类型数据，很容易被散列到同一个Region中

2014-08-05 16:54:21 1440

原创断电后重启Hbase出现KeeperErrorCode = DataInconsistency

org.apache.zookeeper.KeeperException$DataInconsistencyException: KeeperErrorCode = DataInconsistency at org.apache.hadoop.hbase.zookeeper.ZKUtil.convert(ZKUtil.java:1853) at org.apac

2014-07-22 13:58:09 1455

转载 MapReduce:详解Shuffle过程

转自：http://langyu.iteye.com/blog/992916

2014-07-10 18:31:17 389

原创 Data input format and Data output format

1.Data input formatmapreduce输入的数据一般都是key/value

2014-07-10 13:50:34 915

原创 Hadoop mapreduce 中partition作用

1.其中mapreduce中map输出的数据会根据butong

2014-07-10 12:25:01 2221

转载 mapreduce 剖析

另外，还找到一篇文章，很好，引用一下。Hadoop是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（

2014-07-10 11:50:59 389

原创 win7 Eclipse连接Hadoop

conf.set("fs.defaultFS","hdfs://192.168.1.201:9000");conf.set("mapred.job.tracker","192.168.1.201:9001");conf.set("mapreduce.framework.name", "yarn");conf.set("yarn.resourcemanager.address", "19

2014-07-02 17:16:48 814

原创 Linux封装启动和关闭tomcat进程脚本

startTomcat.sh

2014-06-16 16:39:29 440

转载 hadoop 源码学习方法

有效使用Hadoop源码作为MapReduce程序员不可避免的要使用Hadoop源码，Why？记得2010刚接触hadoop的时候，总是搞不清旧api和新api的使用方法。写了一段程序，在一个新api里面调用某个方法每次都是返回Null，非常恼火，后来附上源码发现，这个方法真的就是只做了“return null”并没有给予实现，最后只得想其它方法曲线救国。总之要想真正了解MapReduce

2014-05-15 16:28:04 657

chengzhewang的专栏