Hadoop
Hadoop
luoyunfan6
LuoYunfan
展开
-
hdfs------常用命令
-help 功能:输出这个命令参数手册-ls 功能:显示目录信息示例-mkdir 功能:在hdfs上创建目录示例:hadoop fs -mkdir -p /aaa/bbb/cc/dd-moveFromLocal 功能:从本地剪切粘贴到hdfs示例:hadoop fs - moveFro...原创 2019-08-19 11:08:27 · 254 阅读 · 1 评论 -
MapReduce------利用DBInputFormat和DBOutPutFormat实现MySQL的读入写出
需求见https://blog.csdn.net/luoyunfan6/article/details/100629006测试主类import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;im...原创 2019-09-08 15:41:42 · 183 阅读 · 0 评论 -
MapReduce------自定义mysql的InputFormat和OutputFormat
需求从stu表中读取数据,统计各个年龄段的人数,并输出到stu_res表中。CREATE TABLE `stu` ( `id` int(11) NOT NULL DEFAULT '0', `student_id` int(11) DEFAULT NULL, `name` varchar(45) DEFAULT NULL, `age` int(1) DEFAULT NULL...原创 2019-09-08 15:32:59 · 312 阅读 · 0 评论 -
mapreduce------map()一次性读多行
实现map()函数每次读取5行因为我们需要对读数据的时候的逻辑进行修改,所以只需要实现自己的InputFormat即可。输入数据文件为:json.dat{"name":"ta","age":12,"sex":1}{"name":"la","age":13,"sex":2}...输出结果为:{"name":"ta","age":12,"sex":1}{"...原创 2019-09-08 15:17:22 · 1274 阅读 · 1 评论 -
MapReduce------map端join的实现
案例说明:orders是订单信息的文件,pdts是商品编码和商品名称。获取订单对应商品的商品名称。orders.txt1001 pd001 3001001 pd002 201002 pd003 401003 pd002 50pdts.txtpd001,applepd002,bananapd003,orangeimport java.io.Buffe...原创 2019-08-08 16:03:56 · 109 阅读 · 0 评论 -
MapReduce------找出共同好友
实现思路: 某个人是哪些人的好友,将结果输出到文件。比如,A B,C,D,E (A是BCDE共同的好友)第一个程序结束。 跑第二次程序,将有A好友的人 两两组合形成 <B-C,A>格式的数据,最终跑出B-C A,D,E.....的数据。第一个mr程序import java.io.IOException;import org.apache.h...原创 2019-08-08 15:43:06 · 215 阅读 · 1 评论 -
MapReduce------addCacheFile的使用
main方法中设置缓存文件job.addCacheFile(new URI("file:/你的文件路径));在Mapper类的setup方法中加载缓存文件,setup方法,在maptask运行前只调用一次,可进行初始化工作。protected void setup(Context context)throws IOException, InterruptedException {...原创 2019-08-08 15:08:28 · 1421 阅读 · 0 评论 -
MapReduce------小文件切片优化问题
默认情况下,TextInputformat对任务的切片机智是按文件规划切片,不管文件多小,都会是一个单独的切片,都是交给一个maptask,如果有多个小文件,就会产生大量的maptask,处理效率底下。解决办法: 1.从源头上解决,将文件合并后再上传到HDFS处理。 2.如果小文件已经在HDFS中,可以先写一个MapReduce程序对小文件合并 3.可以用另一种I...原创 2019-08-08 11:14:18 · 252 阅读 · 0 评论 -
Hadoop集群搭建(HA)
三台机器:mini1,mini2,mini3zookeeper的配置 1.解压安装zookeeper 2.在/etc/profile文件中配置ZK_HOME,路径为zookeeper解压地址 2.去zookeeper目录下的conf目录下,把xx.xx.cfg改名为 zoo.cfg 3.配置zoo.cfgtickTi...原创 2019-08-01 13:25:02 · 114 阅读 · 0 评论