博客专栏  >  互联网   >  大数据学习笔记

大数据学习笔记

大数据学习笔记

关注
11 已关注
18篇博文
  • Hive中处理json数据

    1 概述 Hive中提供了两种针对json数据格式解析的函数,即get_json_object()与json_tuple() 2 示例 set hivevar:msg={ "name": "T...

    2017-01-13 18:44
    956
  • Hive中使用MAP JOIN

    1 概述 若所有表中只有一张小表,那可在最大的表通过Mapper的时候将小表完全放到内存中,Hive可以在map端执行连接过程,称为map-side join,这是因为Hive可以和内存的小表逐一匹配...

    2016-12-16 18:12
    1669
  • MapReduce中如何处理跨行的Block和InputSplit

    1 提出问题 Map最小输入数据单元是InputSplit。比如对于那么对于一个记录行形式的文本大于128M时,HDFS将会分成多块存储(block),同时分片并非到每行行尾。这样就会产生两个问题: ...

    2016-12-13 10:00
    364
  • Hadoop中的FileStatus、BlockLocation、LocatedBlocks、InputSplit

    1 FileStatus 1.1 包名 org.apache.hadoop.fs.FileStatus 1.2 格式 FileStatus{path=hdfs://192.X.X.X:9000/...

    2016-12-12 21:41
    372
  • Hadoop中基于文件的数据格式(1)SequenceFile

    1 概述 1 SequenceFile是Hadoop为例存储二进制的而设计的一种平面文件。 2 SequenceFile的key和value是writable或者writable子类。 3 Seque...

    2016-12-11 10:55
    268
  • 从Hadoop IOUtils closeStream方法看如何安全关闭流

    使用方法 IOUtils.closeStream(writer); 进入代码 public static void closeStream(java.io.Closeable stream)...

    2016-12-11 06:56
    478
  • Hadoop API文档地址

    经常需要查阅,做一下笔记 http://hadoop.apache.org/docs/ http://hadoop.apache.org/docs/current1/api/ http://...

    2016-12-10 21:22
    229
  • Hadoop上传文件报错: name node is in safe mode

    将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode 这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系...

    2016-12-09 20:26
    169
  • Hadoop中的序列化

    1 简介 序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。 通讯格式需求 hadoop在节点间的内部通讯使用的是RPC,RPC协议把消息翻译成二进制...

    2016-12-09 20:15
    165
  • Hadoop运行时缺少hadoop.dll winutils.exe

    1 发现问题 在window连接虚拟机Hadoop集群时遇到问题: 1.1 缺少winutils.exe Could not locate executable null \bin\winutils....

    2016-12-09 12:33
    2879
  • Hadoop中的压缩(2) Mapper中使用压缩

    1 输入文件 若输入文件时压缩过的,那么被MR读取时它们会被自动解压。根据文件扩展名可以确定使用哪一个文件解码器。TextInputFormat的getRecordReader方法,再进入LineRe...

    2016-12-08 20:02
    189
  • Hadoop中的压缩(1) 概述与实例

    1 概述 文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下这两点尤为重要。hadoop里支持很多种压缩格式: DEFLATE是同时使用了L...

    2016-12-08 19:46
    163
  • MapReduce中的InputFormat(2)自定义

    1 概述 Hadoop内置的输入文件格式类有: 1)FileInputFormat这个是基本的父类,自定义就直接使用它作为父类。 2)TextInputFormat这个是默认的数据格式类。key代表当...

    2016-12-10 11:55
    638
  • MapReduce中的InputFormat(1)概述

    1 概念 InputFormat用于描述输入数据的格式,提供以下两个功能: A、数据切分:按照某种策略将输入的数据切分成若干split,以便确定Map Task个数,以及对应的Split。 B、提供数...

    2016-12-06 19:15
    290
  • Hadoop报错:Failed to locate the winutils binary in the hadoop binary path

    1 发现问题 在虚拟机中搭建了hadoop集群,在windows中访问报错 15/06/11 15:35:50 ERROR Shell: Failed to locate the winutils b...

    2016-12-05 08:52
    3527
  • Hadoop2.X中使用RPC

    1.1 协议 import org.apache.hadoop.io.Text; import org.apache.hadoop.ipc.VersionedProtocol; public inte...

    2016-12-04 18:12
    266
  • Hadoop1.X中使用RPC

    1.1 协议 import org.apache.hadoop.io.Text; import org.apache.hadoop.ipc.VersionedProtocol; public inte...

    2016-12-04 11:16
    176
  • Hadoop报错:could only be replicated to 0 nodes, instead of 1

    1 发现问题 执行hadoop上传文件命令,报错could only be replicated to 0 nodes, instead of 1 2 方案1 原因 查看logs文件夹下datano...

    2016-12-04 10:45
    167

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部