博客专栏  >  云计算/大数据   >  大数据

大数据

大数据学习

关注
1 已关注
32篇博文
  • 大数据-1

    1、什么是大数据?特点? 大数据(英语:Big data),又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。在总数据量相同的情况下,与个别分析独立的小型数据集(...

    2018-01-22 18:01
    52
  • 大数据-2

    1、CAP原理&BASE思想(摘自CAP原理和BASE思想) 分布式领域CAP理论 Consistency(一致性), 数据一致更新,所有数据变动都是同步的 Availability(可用性),...

    2018-01-23 21:11
    65
  • 大数据-3

    1、HDFS架构(Hadoop核心之HDFS架构设计) a、hdfs定义 hdfs是被设计成适合运行在通用硬件上、具有高容错性、提供高吞吐量数据访问、以流的形式访问数据、的分布式文件系统。 b、...

    2018-01-24 19:19
    47
  • Ubuntu之hadoop-分布式集群ssh免密码登录

    配置ssh的实现思路: 1、在每台机子上都使用ssh-keygen生成public key,private key 2、所有机子的public key都拷到一台机子如master上 3、在mas...

    2018-01-24 19:12
    50
  • ubuntu-hadoop:mkdir: `lala': No such file or directory

    xm@slave1:~$ hadoop fs -mkdir lala mkdir: `lala': No such file or directory 解决方法: xm@slave1:~$ had...

    2018-01-25 10:29
    89
  • 如何手动开启或关闭HDFS的安全模式(safemode)

    如何手动开启或关闭HDFS的安全模式(safemode) 在hadoop启动namenode的时候,会启动安全模式(safemode),在该模式下,namenode会等待datanode向它发送块报...

    2018-01-25 11:35
    29
  • hadoop文件操作错误---org.apache.hadoop.ipc.RemoteException(java.io.IOException)

    使用hadoop dfsadmin -report命令查看磁盘使用情况 如果是下面的情况 Configured Capacity: 0 (0 B) Present Capacity: 0 ...

    2018-01-25 15:51
    152
  • hadoop-HDFS文件java操作

    基本实例化代码 System.setProperty("hadoop.home.dir", "/home/xm/hadoop-2.7.1"); String uri =...

    2018-01-25 19:28
    45
  • HDFS常用Shell操作

    列出文件目录 hadoop fs -ls 目录路径 查看HDFS根目录下的目录:hadoop fs -ls / 递归查看HDFS根目录下的目录:hadoop fs -lsr / 创建文件夹 had...

    2018-01-25 21:03
    35
  • Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://master:9000/input

    在进行将本地文件合并成大文件然后传输到HDFS文件的过程中出现以下问题 log4j:WARN No appenders could be found for logger (org.apache.h...

    2018-01-26 09:20
    73
  • 本地文件合并后传至HDFS文件

    代码如下: package hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.F...

    2018-01-26 09:23
    167
  • HDFS数据完整性

    用户希望储存和处理数据的时候,不会有任何损失或者损坏。 Hadoop提供两种校验 1校验和(常用循环冗余校验CRC-32) 2运行后台进程来检测数据块 校验和 1、写入数据节点验证 2、读...

    2018-01-26 11:38
    24
  • HDFS小文件问题解决方案+SequenceFile简单介绍

    HDFS和MR主要针对大数据文件来设计,在小文件处理上效率低. 解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源. ...

    2018-01-26 11:46
    113
  • SequeceFile读写

    SequenceFile写操作 1、通过createWrite创建SequenceFile对象,返回Write实例,指定待写入的数据流如FSDataOutputStream或FileSystem对象...

    2018-01-26 13:10
    30
  • MapFile

    一个MapFile可以通过SequenceFile的地址,进行分类查找的格式。 使用这个格式的优点在于: 首先会将SequenceFile中的地址都加载入内存,并且进行了key值排序,从而提供更快的数...

    2018-01-26 13:45
    60
  • HDFS文件压缩

    减少储存文件所需空间,还可以降低其在网络上传输的时间。 hadoop下各种压缩算法的压缩比 压缩算法 原始文件大小 压缩后的文件大小 压缩速度 解压速度 gzip ...

    2018-01-26 13:52
    157
  • Hadoop序列化

    为什么Hadoop基本类型还要定义序列化? 1、Hadoop在集群之间通信或者RPC调用时需要序列化,而且要求序列化要快,且体积要小,占用带宽小。 2、java的序列化机制占用大量计算开销,且序列化结...

    2018-01-26 14:02
    39
  • HDFS中数据副本的存放策略

    Hadoop 0.17之前 副本一:同机架的不同节点 副本二:同机架的另一节点 副本三:不同机架的另一节点 其他副本:随机挑选 Hadoop 0.17之后 副本一:同Client的节点上 副本二...

    2018-01-26 16:27
    82
  • java序列化与反序列化

    Java序列化是指把Java对象转换为字节序列的过程 而Java反序列化是指把字节序列恢复为Java对象的过程 代码如下:(因为需要对象,所以首先构建对象Student类) package h...

    2018-01-26 19:22
    20
  • java与hadoop序列化与反序列化的比较

    在hadoop中,hadoop实现了一套自己的序列化框架,hadoop的序列化相对于JDK的序列化来说是比较简洁而且更节省存储空间。 在集群中信息的传递主要就是靠这些序列化的字节序列来传递的所以更快速...

    2018-01-27 08:45
    36

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部