Hadoop
857技术社区
这个作者很懒,什么都没留下…
展开
-
Hadoop 二次排序
具体步骤: 1 自定义key。 在mr中,所有的key是需要被比较和排序的,并且是二次,先根据partitioner,再根据大小。而本例中也是要比较两次。先按照第一字段排序,然后再对第一字段相同的按照第二字段排序。根据这一点,我们可以构造一个复合类IntPair,他有两个字段,先利用分区对第一字段排序,再利用分区内的比较对第二字段排序。 所有自定义的key应该实现接口WritableComparable,因为是可序列的并且可比较的。并重载方法 //反序列化,从流中的二进制转换成IntPair public原创 2020-06-30 15:29:14 · 275 阅读 · 0 评论 -
Hadoop文件归档OOM解决
export HADOOP_CLIENT_OPTS=-Xmx20g原创 2020-05-20 19:34:30 · 306 阅读 · 0 评论 -
Hadoop 文件归档
#! bin/bash PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin export PATH export JAVA_HOME=/usr/local/jdk export PATH=$JAVA_HOME/bin:$PATH export HADOOP_USER_NAME=hdfs if [ -z "$1" ]; then yesterday=`date -d '0 day' +%Y%m%d` echo $yeste.原创 2020-05-20 19:33:41 · 348 阅读 · 0 评论