
hadoop
不会编程的码农
QQ:1670934843
展开
-
hadoop64位编译
官方提供的hadoop-2.x版本貌似都是32位的,在64位机子下使用可能会报错,最好使用官方提供的源码进行本地编译,编译成适合本地硬件环境的64位软件包。关于native Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 native位于h转载 2017-04-04 14:49:02 · 1136 阅读 · 0 评论 -
hadoop--单表关联
给出child-parent表,输出grandchild-grandparent表child parentTom LucyTom JackJone LucyLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark TerryMark Alma代码:impor原创 2017-05-09 21:13:46 · 526 阅读 · 0 评论 -
hadoop初学-WordCount
WordCount.javaimport java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Ma原创 2017-04-03 20:23:59 · 342 阅读 · 0 评论 -
MapReduce执行过程中的数据流程:
1.预先加载本地的输入文件 2.经过MAP处理产生中间结果 3.经过shuffle将key相同的中间结果分配到同一个节点去处理 4.Reduce处理产生结果输出 5.将结果保存在hdfs上 MAP阶段所做工作:在map阶段:1.使用job.setINputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites;2.同时InputFormat提供一原创 2017-05-07 21:00:08 · 3042 阅读 · 0 评论 -
利用 HDFS 的 URL 方式读取 HDFS 内文件内容
准备工作: 与上一篇相同 代码:package com.peng.hdfs;import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandler原创 2017-05-07 15:58:42 · 8137 阅读 · 0 评论 -
通过 HDFS 的 API 访问文件系
准备工作: 1.导入所需要的jar包(最好把hadoop的jar包全部导入) 2.把集群的hdfs-site.xml和core-site.xml文件复制到src目录下 代码:package com.peng.hdfs;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache原创 2017-05-07 15:55:38 · 476 阅读 · 0 评论 -
Hadoop环境搭建教训
1、不要随便去格式化NameNode,会带来各种错误; 2、虚拟机一定要保存快照。原创 2017-04-24 16:47:01 · 345 阅读 · 0 评论 -
第一个python实现的mapreduce程序
map:# !/usr/bin/env pythonimport sysfor line in sys.stdin: line = line.strip() words = line.split() for word in words: print ("%s\t%s") % (word, 1)reduce:#!/usr/bin/env pythonimport op原创 2017-05-13 21:42:12 · 4357 阅读 · 0 评论 -
在Eclipse中直接运行Mapreduce程序
1.把插件拷到eclipse插件包中(一定注意插件版本,否则会出错); 2.把1号拷入widows系统system32文件夹下,把1,2拷入hadoop bin目录下 运行程序结果: 3.对应插件未上传,如需要可直接留言 4.同时注意代码中路径的设置:原创 2017-05-12 21:28:44 · 1332 阅读 · 0 评论 -
MapReduce编程实例:二次排序
设计思路:二次排序的含义为先按某列对数据进行排序,在该次排序的基础上再按照另一列的值进行排序:4 34 24 13 42 72 33 13 23 3SecondaryMapper:import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.原创 2017-05-01 18:02:58 · 568 阅读 · 0 评论 -
DataNode无法启动解决
重新格式化了namenode发现DataNode不能启动了,原因是namenode 的clusterID与datanode的clusterID不一致造成,把datanode的cluserID改成NameNode的(注意在对应的机器下去找)原创 2017-05-10 20:11:26 · 800 阅读 · 0 评论 -
编写自己的Writeable类
import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.Set;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;/* * Haoop提供的Writ原创 2017-05-01 19:02:51 · 647 阅读 · 0 评论 -
Writable类---序列化和反序列化示例
import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.DataInputStream;import java.io.DataOutputStream;import java.io.IOException;import org.apache.hadoop.io.IntWri原创 2017-05-01 18:41:23 · 790 阅读 · 0 评论 -
MapReduce编程实例:连接(Join)
设计思路:学生信息表studnet_info.txt:Jenny 00001Hardy 00002Bradeley 00003学生选课信息表student_class_info.txt00001 Chinese00001 Math00002 Music00002 Math00003 Physic经过join操作后,所得结果:Jenny ChineseJenny MathHar原创 2017-05-01 16:37:40 · 1157 阅读 · 2 评论 -
mapreduce计算分词权重
计算每个词在每篇微博中的权值 思路: 公式:TF* loge(N/DF) TF:当前词在本篇微博中出现的次数 N:总微博数 DF:当前词在多少微博中出现过 编程时特别注意不要导错包,不让会出现许多奇怪的错误: 1.测试数据3823890335901756 今天是今年最暖和的一天,果断出来逛街!3823890364788305 春天来了,约好友一起出去去踏青原创 2017-04-28 16:50:38 · 436 阅读 · 0 评论 -
集群故障
今天在hdfs系统新建文件夹,出现下面异常: 在浏览器管理界面看两个namenode都处于standby状态,运行下面命令把node1(nn1)设置为active状态,问题解决:hdfs haadmin -transitionToActive --forcemanual nn1原创 2017-05-10 11:00:44 · 664 阅读 · 0 评论