自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SOARING

积跬步,至千里!积小流,成江海!

  • 博客(9)
  • 问答 (1)
  • 收藏
  • 关注

原创 HDFS工作原理分析

HDFS:分布式文件系统,存储、管理文件,by统一的命名空间(目录树),服务器集群中的各个节点都有自己的职责。物理分块存储(可设置block) 提供client统一目录树,by路径访问文件 目录结构和分块信息(元数据),namenode管理,主节点,维护集群目录树和每个路径下的文件对应数据块信息(blockid,存哪个datanode) Datanode管理文件快,从节点,每一个bloc...

2019-03-25 09:07:45 209

原创 Mapreduce实现求每一个订单中成交金额最大的三笔,分组TOPN(排序控制、分区控制、分组控制)

笔记待更新数据为:订单号,用户id,产品名,价格,数量package mapreduce.ordertopn;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import org.apache.hadoop.conf.Configuration;...

2019-03-16 23:23:31 902

原创 MapReduce之页面访问次数的top—n,以及访问次数全局排序实现

数据样本:2017/07/28 sina.com/lady/2017/07/28 sina.com/play2017/07/28 sina.com/movie2017/07/28 sina.com/music2017/07/28 sina.com/sport2017/07/28 sina.com/sport2017/07/28 163.com/sport......等#中间...

2019-03-15 21:17:05 1557

原创 JAVASE的TreeMap比较器的实现

flowbean类:package mapreduce_flowcount;import java.util.Map.Entry;import java.util.Comparator;import java.util.Set;import java.util.TreeMap;/** * treemap按照key进行排序。 * @author THY * ...

2019-03-14 21:44:32 286

原创 MapReduce编程模型实现手机流量统计,自定义数据类型实现Hadoop序列化接口,自定义Partitioner类的使用

Mapreduce编程模型环境搭建详情:MapReduce编程模型实现WordCount程序,在搭建的YARN上运行数据类型格式:本次map方法输出结果不在是单一的数据类型了,而是一个FlowBean的包装类,其中包含数据 upflow、downflow、phone等将读取到的Text类型的value装换成string类型,按照"\t"切分成数组。读取的每一行为一个数组,根据数据格...

2019-03-14 18:22:51 468

原创 MapReduce编程模型实现WordCount程序,在搭建的YARN上运行

##本程序在hadoop集群hdfs系统搭建完成,namenode,datanode可正常启动并使用的基础上进行。 首先需要搭建YARN平台,修改hadoop下的配置文件yarn-site.xml即可。 <configuration><!-- 配置resourcemanager节点所在位置 --> <property> <na...

2019-03-14 11:44:00 392

原创 Java实现HDFS的wordcount实现(面向对象的思想)

主程序:package hdfs.wordcount;import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URI;import java.util.HashMap;import java.util.Map.Entry;import java.util.Properties;...

2019-03-11 13:56:02 244

原创 Java对HDFS进行数据采集

主程序:package hdfs.datacllect;import java.util.Timer;public class DataCllectMain { public static void main(String[] args) { Timer timer = new Timer(); //定时每隔一个小时收集一次 延迟为零 timer.scheduleAtFi...

2019-03-11 11:44:33 475

原创 利用Java API对HDFS文件系统进行操作

前期配置好centos的namenode和datanode之后,能利用start-dfs.sh正常启动后可用Eclipse编写程序对hdfs文件系统进行相应的增删改查等操作。首先需要配置hadoop的window环境变量,否则不能进行对hdfs进行正常操作。打开我的电脑中的属性,环境变量,点新建添加HADOOP_HOME值为你的hadoop所在的目录(注意不要有中文),最后再把hadoop中...

2019-03-11 11:27:13 3300

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除