大数据
文章平均质量分 52
cyclebozhou
这个作者很懒,什么都没留下…
展开
-
mapreduce的几种工作模式
前言Mapreduce工作原理,可以粗略的看作一个分包聚合分包过程的map,聚合过程reduce,根据业务的不同使用的方式也不同.其中主要可以分为5种不同的使用模式.MapReduce作业的阶段主要可以分为以下5种: Input-Map-Reduce-Output Input-Map-Output Input-Multiple Maps-Reduce-Out...原创 2018-02-08 19:14:32 · 1207 阅读 · 1 评论 -
sqoop导入导出
导入语法:$ sqoop import (generic-args) (import-args)配置了环境变量可以直接使用sqoop否则需要找到对应目录 bin/sqoop导入mysql表数据到HDFSbin/sqoop import \ –connect jdbc:mysql://node-1:3306/userdb \ –username root \ –passwor...原创 2018-03-26 10:22:51 · 630 阅读 · 0 评论 -
spark中的数据倾斜的现象
spark中的数据倾斜的现象、原因、后果 (1)、数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 (2)、数据倾斜的原因 数据问题 1、key本身分布不均衡(包括大量的key为空) 2、key的设置不合理 spark使用问题 1、shuffle时的并发度不够 2、计算方式有误 (3)、数据倾斜的后果 1、sp...原创 2018-03-26 10:22:04 · 939 阅读 · 0 评论 -
sacla之akka
概述: akka是rpc轻量级框架 ,Scala 在 2.11.x 版本中将 Akka 加入其中,作为其默认的 Actor,而老版本使用的 Actor 已经废弃组成: master worker 两者之间使用akka中的rpc通信 通信的业务逻辑: 1. 启动master和worker 2. wo...原创 2018-03-07 20:59:41 · 740 阅读 · 1 评论 -
hadoop之hdfs(1)
基本原理: 采用的架构:Master/Slave主从架构,即一个hdfs包含一个逻辑上的单独的master节点(实际上可以包含多个物理主机或者备用机)和多个slave节点服务器.主节点:NameNode NameNode负责保存和管理所有的HDFS元数据 从节点:DataNode DataNode:通过一个个Block把文件保存在本地硬盘上需要定时向 N...原创 2018-02-08 21:00:36 · 779 阅读 · 1 评论 -
hadoop面对大量的小文件处理
小文件在HDFS中 HDFS块大小默认是128m(hadoop2.x默认是128),若是存储了很多这种小文件每个小文件占了一个block而每个block的文件,目录在namenode里以对像(元数据)形式存储,就会造成namenode内存占用严重,同时 阅读小文件通常会导致从一个DataNode到DataNode检索每个小文件检索效率极低在MapReduce中小文件问题一个Map...原创 2018-02-08 20:29:39 · 4975 阅读 · 2 评论 -
Spark Streaming整合kafka(2)
KafkaUtils.createDstream方式(基于kafka高级Api—–偏移量由zk保存) import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.s...原创 2018-03-29 09:19:45 · 1508 阅读 · 0 评论