![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
Big-Dad
这个作者很懒,什么都没留下…
展开
-
大数据概念1
1.CAP, BASE1.CAP数据一致性(consistency): 数据一致更新,所有数据变动都是同步的,如果系统对一个写操作返回成功,那么之后的读请求都必须读到这个新数据;如果返回失败,那么所有读操作都不能读到这个数据,对调用者而言数据具有强一致性(strong consistency) (又叫原子性 atomic、线性一致性 linearizable consistency原创 2018-01-23 21:14:13 · 374 阅读 · 0 评论 -
HDFS架构
HDFS架构HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。原创 2018-01-24 19:30:32 · 265 阅读 · 0 评论 -
Hadoop IO操作
HadoopIO操作意义 Hadoop自带一套用于I/O的原子性的操作(不会被线程调度机制打断,一直到结束,中间不会有任何context switch)。 特点是基于保障海量数据集的完整性和压缩性 。 Hadoop提供了一些用于开发分布式系统的API(一些序列化操作+基于磁盘的底层数据结构)1.HDFS数据完整性用户希望储存和处理数据时,不会有任何损失或损坏。Hadoop提供两种原创 2018-01-27 13:17:12 · 516 阅读 · 0 评论 -
Hadoop文件系统及其java接口
一、FileSystemorg.apache.hadoop.fs.FileSystem是hadoop的抽象文件系统,为不同的数据访问提供了统一的接口,并提供了大量具体文件系统的实现,满足hadoop上各种数据访问需求 如以下几个具体实现(原表格见《hadoop权威指南》): 二、Java接口文件系统的方法分为两类:一部分处理文件和目录;一部分读写文件数据。 hadoop抽原创 2018-01-27 13:49:17 · 636 阅读 · 0 评论 -
MapReduce概述
1.了解MapReduce1.1简介Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集MapReduce的特点:软件框架并行处理可靠且容错大规模集群海量数据集MapReduce的思想就是“分而治之” (1)Ma原创 2018-01-27 19:10:10 · 372 阅读 · 0 评论 -
MapReduce应用
一、数据去重问题描述数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。问题分析根据reduce的过程特性,会自动根据key来计算输入的value集合 把数据作为key输出给reduce,无论这个数据出现多少次,reduce最终结果中key只能输出一次。实现步骤实例中每个数据代表输入文件中的一行内容,map阶段采用Hadoop默认的作原创 2018-01-28 15:27:39 · 750 阅读 · 0 评论 -
MapReduce进阶
一、Combiner1.1原因:在上述过程中,我们看到至少两个性能瓶颈:(1)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力,同样也可以大幅度提高程序效率。 网络带宽严重被占降低程序效率; (2)假设使用美国专利数据集中的国家一项来阐述原创 2018-01-28 20:46:04 · 552 阅读 · 0 评论 -
MapReduce应用☞关联操作
主要是使用hadoop集群完成数据相关性简单分析一、单表关联单表关联”要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘1.1实例给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。 输入:child parent Tom LucyTom原创 2018-01-30 18:22:20 · 441 阅读 · 0 评论 -
MapReduce Join操作
Mapreduce连接1、reduce side join在reduce端进行表的连接,该方法的特点就是操作简单,缺点是map端shffule后传递给reduce端的数据量过大,极大的降低了性能 连接方法: (1)map端读入输入数据,以连接键为Key,待连接的内容为value,但是value需要添加特别的标识,表示的内容为表的表示,即若value来自于表1,则标识位设置为1,若来原创 2018-01-30 18:54:29 · 366 阅读 · 0 评论 -
大数据概论
1.大数据是什么,5V?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的5V特点(IBM提出): - Volume(大量) - Velocity(高速) - Variety(多样) - Value(低价值密度) -原创 2018-01-22 20:53:04 · 349 阅读 · 0 评论 -
Hadoop伪分布式环境搭建
一.安装虚拟机VMware12、Centos7安装,网上教程有很多,可参考https://blog.csdn.net/sinat_35866463/article/details/77934186网络模式我选择的是NAT二.hadoop环境准备1.准备网络配置VMware页面 → 编辑 → 虚拟网络编辑 → VMnet8选择NAT模式,不要勾选使用本地DHCP服务将IP地址分配给虚...原创 2018-10-10 22:03:25 · 326 阅读 · 0 评论 -
Scala安装
下载地址 https://www.scala-lang.org/download/all.html若官网无法下载,将以下地址中的版本号改成自己所需要的即可http://downloads.typesafe.com/scala/2.11.0/scala-2.11.0.msiScala-IDE下载 http://scala-ide.org/download/sdk.html1.windows下...原创 2018-10-15 21:18:05 · 142 阅读 · 0 评论 -
Zookeeper + Hbase安装配置
Zookeeper下载地址 http://apache.fayea.com/zookeeper/Habase下载地址 http://archive.apache.org/dist/hbase/一、Zookeeper安装配置集群上部署Zookeeper最好使用奇数台机器,这样如果有5台机器,只要3台正常工作则服务将正常。在目前的实际生产环境中,一个Hadoop集群最多有三台节点做备用mast...原创 2018-10-14 15:41:34 · 215 阅读 · 0 评论 -
Hive安装
1.先装好数据库https://blog.csdn.net/qq_40759271/article/details/83031225并新建一个hive数据库 >create database hive;2.安装hive下载地址 http://mirrors.cnnic.cn/apache/hive/解压 tar -zxvf apache-hive-2.3.3-bin.tar.gz...原创 2018-10-13 09:34:21 · 140 阅读 · 0 评论