博客专栏  >  云计算/大数据   >  大数据处理

大数据处理

记录学习中遇到的问题

关注
2 已关注
24篇博文
  • Hive 中的外部表在数据源移动后,如何进行查询操作?

    修改被移动数据源的表的 location 即可hive> alter table injury_info_daily_test_2 set location '/input'; OK Time tak...

    2018-01-09 14:16
    152
  • HDFS 从客户端写入到 DataNode 时,ACK 是否三个备份都写成功之后再确认成功操作?

    ACK 是否三个备份都写成功之后再确认成功操作? 不是的,只要成功写入的节点数量达到dfs.replication.min(默认为1),那么就任务是写成功的 正常情况下: ① 在进行写操作的时候...

    2018-01-09 14:13
    271
  • HDFS 中向 DataNode 写入数据失败了怎么办

    如果向DataNode写入数据失败了怎么办? 如果这种情况发生,那么就会执行一些操作: ① Pipeline数据流管道会被关闭,ACK queue中的packets会被添加到data queue的...

    2018-01-09 14:06
    348
  • MapReduce 中 map 和 reduce 数量之间的关系

    ① Map 的数量通常是由 Hadoop 集群的数据块大小(输入文件的总块数)确定的,正常的 Map 数量的并行规模大致是每一个 Node 是10~100个。② 正常Reduce任务的个数应该是0.9...

    2018-01-09 14:02
    178
  • Hive 分区的简介

    hive的partition的作用和使用方法 网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要...

    2018-01-09 10:58
    117
  • 向 Hive 表中加载数据,从 Hive 表中导出数据

    1 建表时候直接指定 如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可。 C...

    2018-01-08 17:22
    230
  • Hadoop 的 NameNode 节点的备份机制与恢复方法

    NameNode 出现问题了如何恢复? NameNode的守护进程可以通过人工的方式从SecondaryNameNode上拷贝一份fsimage来恢复数据 1、hadoop主节点(NameNo...

    2018-01-09 09:43
    302
  • Hive 中的表与外部表

    相信很多用户都用过关系型数据库,我们可以在关系型数据库里面创建表(create table),这里要讨论的表和关系型数据库中的表在概念上很类似。我们可以用下面的语句在Hive里面创建一个表: h...

    2018-01-06 17:51
    127
  • Hadoop 下 WordCount 程序运行方法及过程分析

    1 WordCount 程序运行方法现在有四个小的文本文本内容分别是把这四个文件所在的文件夹 input 放在 HDFS 中运行 Hadoop 自带的 WordCount 程序hadoop jar /...

    2018-01-06 14:15
    137
  • 啥叫 ETL,ETL 到底是啥玩意

    ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。— ETL讲解(很详细!!!)   ...

    2018-01-06 13:48
    397
  • 流式数据、批式数据、实时数据、历史数据的区别

    大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。复杂的批量数据处理(batch data proc...

    2018-01-05 23:27
    2041
  • 简单解释 MapReduce 的原理与设计思想

    MapReduce原理与设计思想一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是: 给在座的所有玩家中分配这摞牌让每个玩家数自己手中...

    2018-01-05 23:46
    302
  • SecondaryNameNode 究竟有什么作用?

    Secondary NameNode:它究竟有什么作用? 前言 最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Seconda...

    2018-01-05 16:21
    156
  • FS Shell 基础

    1 FS Shell调用文件系统 (FS)Shell 命令应使用 bin/hadoop fs 的形式。 所有的的 FS shell 命令使用 URI路径作为参数。URI 格式是 scheme://au...

    2017-12-28 23:04
    153
  • Hive 基础

    1 hive 常用命令假设有数据库 fm_data,里面有表格 shield_fm_feature_item_ctrshow databases; //列出数据库desc database fm_da...

    2017-12-28 23:00
    187
  • Hive 与 HDFS 之间的联系、Hive 与 关系型数据库的区别

    1 Hive 与 HDFS 之间的联系(1)hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为 M...

    2017-12-28 22:53
    1675
  • Hive 显示分区,根据分区进行查询的方法

    hive> show partitions table_name;

    2017-12-27 23:41
    2828
  • Hive SQL 基础语法(1)

    1 substr , substring字符串截取函数:substr,substring语法: substr(string A, int start, int len),substring(strin...

    2017-12-26 16:47
    192
  • 在 CentOS 6.7 环境下安装 Hive 的方法

    Hadoop 的安装过程不再赘述具体方法见之前的文章在 CentOS 7.2 下安装 Hadoop 2.7.5 并搭建伪分布式环境的方法 http://blog.csdn.net/heatdeath...

    2017-12-25 16:22
    182
  • Hadoop 搭建中遇到的问题 —— local host is: "localhost/127.0.0.1"; destination host is: "localhost":9000

    ls: Failed on local exception: java.io.IOException: Connection reset by peer; Host Details : local h...

    2017-12-25 14:51
    1128
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部