hadoop
张威伦
南昌大学毕业
展开
-
云服务器搭建hadoop集群
1:环境准备 3台服务器配置如下公网ip 119.29.186.83 内网ip10.104.157.113 公网ip 119.29.250.47 内网ip 10.104.9.181 公网ip 119.29.251.99 内网ip 10.104.196.48 以上全是centos 7.22:配置hostname 在3台机器上分别执行//主服务器vim /etc/sysconfig原创 2016-05-13 23:46:41 · 3739 阅读 · 2 评论 -
hadoop实现同一订单中找出最大金额
hadoop原创 2016-12-10 10:32:13 · 675 阅读 · 0 评论 -
hadoop找出QQ共同好友算法实现
背景 A:B,C,D,E,F 表示A有bcdef好友 B:C,D,H,Y 以上可知道AB的共同好友为CD 思路: 1:我们先找出一个人被哪几个人共同拥有 测试数据: 2:第一阶段mr程序:package sharefriends;import join.DataJoin;import org.apache.hadoop.conf.Configuration;impo原创 2016-12-04 11:12:41 · 4618 阅读 · 1 评论 -
hadoop join数据倾斜解决方法
注意点: 1: map输出的一定是两表的外键 2:构造的信息bean要有一个标志位,用来判别现在的bean中的信息是属于哪个表的 下面是实现代码已运行通过package join;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.I原创 2016-12-01 11:08:43 · 1132 阅读 · 0 评论 -
idea中hadoop本地debug调试以及本地提交模式(不需要打jar包上传)
环境:ubuntn 14.04 1:将hadoop的目录加入环境变量中gedit .bashrcexport JAVA_HOME=/usr/local/javaexport PATH=$PATH:$JAVA_HOME/binexport HADOOP_HOME=/home/willian/programing/hadoop-2.7.3export PATH=$PATH:$HADOOP_HO原创 2016-11-30 11:07:08 · 2646 阅读 · 0 评论 -
hadoop常用命令
1: 停止mapreduce任务yarn application -kill 你的mapreduce的id//可以通过8088端口查看原创 2016-11-28 16:28:59 · 271 阅读 · 0 评论 -
hadoop 性能优化
1:对于有很多小文件的时候,hadoop默认使用TextInputFormat处理文件,所以会有很多maptask 处理措施: 1:在前端处理的时候先将小文件合并,再传入hadoop 2:如果已经是小文件在hdfs中了,可以使用combineInputFormat 进行小文件合并job.setInputFormatClass(CombineTextInputFormat.cla原创 2016-11-30 10:24:28 · 311 阅读 · 0 评论 -
mapreduce程序编写规范
1:用户编写的程序分成三个部分:Map,Reducer,Driver(用户提交mr程序的客户端) 2:map的输入数据是KV对的形式(kv的类型可以自定义) 3:map的输出数据是KV对的形式(kv的类型可以自定义) 4:map中的业务logic写在map()方法中 5:map方法对每一个原创 2016-11-27 16:14:53 · 1076 阅读 · 0 评论 -
hive hadoop部署
先决条件: 1. 已安装hadoop就去哪 2. 已安装mysql数据库 3. 在mysql数据库中创建hive数据库1:在hive官网下载一个2.几版本 我这里是下载的2.1.1 2:将mysql的java驱动包放到hive的解压包下的lib目录(里面是hive的依赖包) 3:修改配置文件 在hive/conf目录中新建hive-site.xml,内容如下<configuration原创 2017-03-01 16:38:40 · 541 阅读 · 0 评论