hadoop
诸葛子房_
先后就职于京东和BAT,在大数据领域有多年工作经验;
Apache Griffin&&Apache Zeppelin Contributor,dataCompare和dataService作者
展开
-
Hadoop任务scan Hbase 导出数据量变小分析
在main 函数里面读取mysql配置信息,然后通过参数的方式传递给mapper,避免每次mapper 都进行读mysql 取配置 信息。一个MR任务scan hbase 导出hive 文件,但是发现某些天数据突然变小,而且里面数据行数也变小(hbase里面的数据只增不减)日志非常隐蔽,需要去MR 任务里面看 mapper 里面的log 日志,发现有error 日志,进一步定位。发现有mysql 连接数过多,可以看到如下代码非常关键(这个是每次都需要去读取mysql 的配置信息)原创 2023-06-01 11:37:35 · 182 阅读 · 0 评论 -
Hadoop MR 任务运行时日志分析
1.任务状态,只有map 节点2.实际日志分析原创 2022-02-17 15:56:45 · 790 阅读 · 0 评论 -
使用Hadoop ToolRunner 运行wordcount demo
1.代码package org.jediael.hadoopdemo.toolrunnerdemo;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache原创 2021-11-24 11:04:00 · 114 阅读 · 0 评论 -
Hive全量表和增量表互相转换
全量表和增量表互相转换原创 2020-11-09 17:43:12 · 3787 阅读 · 0 评论 -
Hadoop系列HDFS详解
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ①保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ②运行在廉价的机器上。 ③适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存...原创 2020-06-04 09:42:41 · 397 阅读 · 0 评论 -
Hadoop系列 mapreduce 原理分析
以wordcount 为例参考:https://www.jianshu.com/p/c2a5468f0c5chttps://blog.csdn.net/shujuelin/article/details/79119214原创 2020-06-04 10:16:53 · 273 阅读 · 0 评论 -
Hadoop 跑wordcount demo
1.新建文件夹hadoop fs -mkdir /input2.上传文件/opt/hadoop-2.9.2/LICENSE.txthadoop fs -put LICENSE.txt /input3.运行程序/opt/hadoop-2.9.2/share/hadoop/mapreducehadoop jar hadoop-mapreduce-examples-2.9.2.jar wordcount /input /output4.运行状态5.查看结果hadoop f...原创 2020-06-02 09:29:31 · 382 阅读 · 0 评论 -
Hadoop 常用命令
1.hadoop fs -ls / 列出根目录2.hadoop fs -put test.txt / 上传文件3.hadoop fs -mkdir /test 新建文件夹。。。。等等原创 2020-06-01 20:57:48 · 198 阅读 · 0 评论 -
hadoop 安装系列教程二——伪分布式
1.安装Java jdkvi /etc/profileexport JAVA_HOME=/opt/jdk1.8.0_251export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$PATH:$JAVA_HOME/binsource /etc/profile2.安装hadoop步骤一:下载https://hadoop.apache.org/releases.html步骤二:配.原创 2020-06-01 20:54:19 · 235 阅读 · 0 评论 -
hadoop系列——linux hadoop安装
一、安装模式1.单机版本2.伪分布式3.完全分布式二、安装过程1.java jdk 安装2.hadoop安装(1)单机版 standalone步骤一:下载https://hadoop.apache.org/releases.html步骤二:配置使用java/Users/xiaoqiu/alibaba/soft/bigData/hadoop-2.9.2/etc/hadoop/hadoop-env.sh步骤三:修改hdfs的配置文件/Users/xi.原创 2020-05-21 10:21:21 · 294 阅读 · 0 评论