hadoop
文章平均质量分 65
领悟大数据
有多努力,就有多自由
展开
-
大数据的概念以及hadoop集群的安装,概述
大数据的5V特点:Volume\Volocity\Variety\Value\Veracity大数据并行化处理数据,Google2004(分而治之),hadoop产生(Doug cutting)应用场景 典型应用:公司运营情况 CNZZ 数据专家 友盟 电商推荐系统 广告推送系统什么是hadoop ha...原创 2018-12-02 22:02:45 · 235 阅读 · 0 评论 -
namenode/datanode的工作机制
namenode的工作机制(edits为编辑日志,fsimage为镜像文件) 1、secondaryNamenode请求是否需要checkpoint 2、请求执行checkpoint checkpoint触发条件: 1)定时 2)edits数据满了 1、加载日志与镜像文件 2、元数据的增删改查 ...原创 2018-12-03 20:07:42 · 175 阅读 · 0 评论 -
hadoop-rpc ,
RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 public class PublicServer...原创 2018-12-06 21:48:04 · 207 阅读 · 0 评论 -
MapReduce核心编程思想,编程规范
什么是MapReduce? 分布式程序的编程框架,java-》ssh ssm, 目的:简化开发! 是基于hadoop的数据分析应用的核心框架。 mapreduce的功能:将用户编写的业务逻辑代码和自带默认组建整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。MapReduce的优缺点 优点 1、易于编程 2、良好的拓...原创 2018-12-06 21:51:38 · 376 阅读 · 0 评论 -
hadoop的数据序列化类型
hadoop的数据序列化类型 IntWritable,FloatWritable,LongWritable,DoubleWritable,Text, BooleanWritable,ByteWritable,MapWritable,ArrayWritable JAVA的数据类型 int,float,long,double,string,bo...原创 2018-12-06 21:52:44 · 935 阅读 · 0 评论 -
流量汇总案例编程,
public class FlowCountMapper extends Mapper<LongWritable,Text,Text,FlowBean>{ public void map(LongWritable key, Text value, Context context) throws IOException,InterruptedExcept...原创 2018-12-06 21:55:55 · 164 阅读 · 0 评论 -
Hadoop数据压缩及自定义
Hadoop数据压缩 MR操作过程中进行大量数据传输。 压缩技术能够有效的减少底层存储(HDFS)读写字节数。 压缩提高了网络带宽和磁盘空间的效率。 数据压缩能够有效的节省资源! 压缩是MR程序的优化策略! 通过压缩编码对mapper或者reducer数据传输进行数据的压缩,以减少磁盘IO。压缩的基本原则 1、运算密集型任务少用压...原创 2018-12-14 16:06:30 · 227 阅读 · 2 评论 -
Hadoop优化
1、mr程序的效率瓶颈 功能:分布式离线计算 ->计算机性能 CPU、内存、磁盘、网络 ->I/O草足优化 1、数据倾斜(代码优化) 2、map和reduce数设置不合理 3、map运行阶段时间太长,导致reduce等待太...原创 2018-12-14 16:11:33 · 180 阅读 · 0 评论 -
mapjoin操作
mapjoin操作 思路:商品加载到内存中 然后数据在map数据段输出前,进行替换 public class Cachemapper extends Mapper<LongWritable, Text, Text, NullWritable>{ Hashmap<String,String> pdmap = new Hashmap<>...原创 2018-12-10 17:32:21 · 1553 阅读 · 0 评论 -
reducejoin
public class TableBean implements Writable{ //封装对应字段 private String order_id; private String pid; private int amount; private String pname; private Stri...原创 2018-12-10 17:32:57 · 200 阅读 · 0 评论 -
hdfs读写数据流程
hdfs写数据流程 client与namenode 1、client请求namenode上传文件a.txt namenode保存元数据 2、响应回client,可以上传 3、client请求上传第一个bk(0~128M),请求namenode返回datanode的相关信息 4、namenode返回d...原创 2018-12-03 20:04:24 · 126 阅读 · 0 评论 -
HDFS简单API的使用
pulic class HdfsClientDemo01{ main throws Exception{ //1.客户端加载配置文件 Configuration conf = new Configuration(); //2.制定配置(设置成2个副本) conf.set("dfs.replication","2"); ...原创 2018-12-03 19:59:51 · 524 阅读 · 0 评论 -
HDFS命令行客户端
HDFS基本命令行操作 副本的配置 <property> <name>dfs.namenode.secondary.http-address</name> <value>ip:50090</value> </property> ...原创 2018-12-02 22:05:15 · 221 阅读 · 0 评论 -
maptask运行机制,与小文件的优化合并TextInputFormat
maptask并行度与决定机制 1)一个job任务map阶段并行度由客户端提交的任务所决定 2)每一个split分配一个maptask并行处理 3)默认情况下,split大小=blocksize 4)切片是逐个针对每一个文件单独切片maptask的运行机制 1、准备数据 2、创建客户端,提交任务 3、逻辑运算 4、向环形缓冲区写数...原创 2018-12-08 12:11:26 · 208 阅读 · 0 评论 -
hadoop分区--伪代码
partition分区 //默认 public class HashPartitioner<K,V> extends Partitioner<k,v>{ public int getPartition(K key, V value, int numReduceTasks){ return (key.hashCode()...原创 2018-12-08 12:13:18 · 321 阅读 · 0 评论 -
hadoop mr 全局排序
全局排序 需求:根据用户每月使用的流量按照使用的流量多少排序 接口->WritableComparable 排序操作在hadoop中属于默认的行为。默认按照字典顺序排序。排序的分类: 1)部分排序 2)全排序 3)辅助排序 4)二次排序封装类,直接完成排序public class FlowBean implements W...原创 2018-12-08 12:14:23 · 643 阅读 · 0 评论 -
Combiner合并--伪代码
Combiner 合并 父类Reducer 局部汇总,减少网络传输量,今儿优化程序 注意:求平均值? 不可以,疯了吧 public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{ @Override ...原创 2018-12-08 12:15:17 · 342 阅读 · 0 评论 -
hadoop mr 辅助排序
辅助排序 需求:订单数据 求出每个订单中最贵的商品? 订单id正序,成交金额倒序。 结果文件三个,每个结果文件只要一条数据 public class OrderBean implements WritableComparable<OrderBean>{ private int order_id; privat...原创 2018-12-08 12:16:27 · 214 阅读 · 0 评论 -
MapReduce的整体流程、及shuffle机制
MapReduce的整体流程 1、待处理数据 2、提交客户端submit() 3、提交信息切片----hadoop jar wc.jar 4、计算出maptask数量----(nodemanger开辟maptask) 5、使用TextInputFormat读待处理数据----RecordReader 6、context.write()源码中用Inpu...原创 2018-12-08 12:18:10 · 137 阅读 · 0 评论 -
自定义InputFormat
自定义InputFormat 需求:将多个小文件合并为SequenceFile(存储了多个小文件) 存储的格式:文件路径+文件的内容 public class FuncFileInputFormat extends FileInputFormat<NullWritable,BytesWritable>{ @Override pr...原创 2018-12-08 12:19:08 · 402 阅读 · 0 评论 -
outputformat自定义--数据过滤
outputformat自定义--数据过滤 需求:过滤日志文件 把包含itstaredu的放在一个文件 把不包含itstaredu的放在一个文件 public class FuncFileOutputFormat extends FileOutputFormat<Text, NullWritable>{ @...原创 2018-12-08 12:19:53 · 272 阅读 · 0 评论 -
MapReduce论文中文版--The Google File System
摘要MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子, 本论文将详细描述这个模型。MapReduce...转载 2019-01-23 11:23:32 · 1364 阅读 · 1 评论