![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop etc.
卷曲的葡萄藤
这个作者很懒,什么都没留下…
展开
-
MapReduce编程模型实现WordCount程序,在搭建的YARN上运行
##本程序在hadoop集群hdfs系统搭建完成,namenode,datanode可正常启动并使用的基础上进行。 首先需要搭建YARN平台,修改hadoop下的配置文件yarn-site.xml即可。 <configuration><!-- 配置resourcemanager节点所在位置 --> <property> <na...原创 2019-03-14 11:44:00 · 364 阅读 · 0 评论 -
列式存储格式:Parquet
原作者:https://blog.csdn.net/yu616568/article/details/51868447什么是列式存储OLAP查询的特点,列式存储可以提升其查询性能,如何做到?一般关系型数据库都是行存储,日常工作中我们又是仅需要某一列的数据,如果按行存储的化我们需要扫描每一行才能获取列。这样就大大的耗费了成本。而列式存储都是按列进行顺序存储的(每一列都是文件??)所以:...原创 2019-05-06 09:53:27 · 1536 阅读 · 0 评论 -
MapReduce超详细内部核心工作机制
比如说我们需要MR去对hdfs的...../input/file1,2,3,4,5.....的很多文件进行处理,首先在提交MR程序的时候Job客户端会根据你写的目录去扫描所有的文件。按照block size进行分片的划分。然后,不同的map task 并行的去处理这些分片。假设map task 0 去处理split 0 :首先,TextInputFomat将split0读进来,然后...原创 2019-05-08 14:01:51 · 190 阅读 · 0 评论 -
CDH5.8.2离线搭建详解
一 概述CDH大数据平台基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。对计算机的硬件要求很高,本人使用8G内存搭建。二 前期准备条件虚拟机使用的是Centos7 ,总计三台,可以ping互相平通网络,免密登录等虚拟机安装以及环境配置不在详述。...原创 2019-04-28 18:22:17 · 773 阅读 · 0 评论 -
HDFS工作原理分析
HDFS:分布式文件系统,存储、管理文件,by统一的命名空间(目录树),服务器集群中的各个节点都有自己的职责。物理分块存储(可设置block) 提供client统一目录树,by路径访问文件 目录结构和分块信息(元数据),namenode管理,主节点,维护集群目录树和每个路径下的文件对应数据块信息(blockid,存哪个datanode) Datanode管理文件快,从节点,每一个bloc...原创 2019-03-25 09:07:45 · 184 阅读 · 0 评论 -
Mapreduce实现求每一个订单中成交金额最大的三笔,分组TOPN(排序控制、分区控制、分组控制)
笔记待更新数据为:订单号,用户id,产品名,价格,数量package mapreduce.ordertopn;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import org.apache.hadoop.conf.Configuration;...原创 2019-03-16 23:23:31 · 841 阅读 · 0 评论 -
MapReduce之页面访问次数的top—n,以及访问次数全局排序实现
数据样本:2017/07/28 sina.com/lady/2017/07/28 sina.com/play2017/07/28 sina.com/movie2017/07/28 sina.com/music2017/07/28 sina.com/sport2017/07/28 sina.com/sport2017/07/28 163.com/sport......等#中间...原创 2019-03-15 21:17:05 · 1548 阅读 · 0 评论 -
Java实现HDFS的wordcount实现(面向对象的思想)
主程序:package hdfs.wordcount;import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URI;import java.util.HashMap;import java.util.Map.Entry;import java.util.Properties;...原创 2019-03-11 13:56:02 · 238 阅读 · 0 评论 -
Java对HDFS进行数据采集
主程序:package hdfs.datacllect;import java.util.Timer;public class DataCllectMain { public static void main(String[] args) { Timer timer = new Timer(); //定时每隔一个小时收集一次 延迟为零 timer.scheduleAtFi...原创 2019-03-11 11:44:33 · 468 阅读 · 0 评论 -
利用Java API对HDFS文件系统进行操作
前期配置好centos的namenode和datanode之后,能利用start-dfs.sh正常启动后可用Eclipse编写程序对hdfs文件系统进行相应的增删改查等操作。首先需要配置hadoop的window环境变量,否则不能进行对hdfs进行正常操作。打开我的电脑中的属性,环境变量,点新建添加HADOOP_HOME值为你的hadoop所在的目录(注意不要有中文),最后再把hadoop中...原创 2019-03-11 11:27:13 · 3257 阅读 · 0 评论 -
MapReduce编程模型实现手机流量统计,自定义数据类型实现Hadoop序列化接口,自定义Partitioner类的使用
Mapreduce编程模型环境搭建详情:MapReduce编程模型实现WordCount程序,在搭建的YARN上运行数据类型格式:本次map方法输出结果不在是单一的数据类型了,而是一个FlowBean的包装类,其中包含数据 upflow、downflow、phone等将读取到的Text类型的value装换成string类型,按照"\t"切分成数组。读取的每一行为一个数组,根据数据格...原创 2019-03-14 18:22:51 · 462 阅读 · 0 评论 -
HA总结,zookeeper,HDFS,YARN
HDFS-HA架构ActiveNode和StandbyNode形成互备,当Active挂掉的时候启动standby作为active对外提供服务。 ZKFailoverController 作为独立的进程运行,对 NameNode 的主备切换进行总体控制。ZKFailoverController 能及时检测到 NameNode 的健康状况,在主 NameNode 故障时借助 Zook...原创 2019-05-23 10:49:42 · 629 阅读 · 0 评论