大数据
文章平均质量分 86
故事讲到哪了
微信公众号:编译未来
展开
-
Mapper-Reducer实例
一、MapReduce-分布式计算系统1.含义:MapReduce是一个基于集群的高性能并行计算平台。MapReduce也是一个并行计算与运行软件框架。MapReduce也是一个并行程序设计模型与方法。2.工作原理:Mapper:分割/提取-流程-读取文件每行数据-按需要的形式进行分割-产生键值对<K,V>-按key值排序,分组-输出<K,V>e...原创 2018-12-06 16:01:10 · 985 阅读 · 0 评论 -
Hadoop HDFS 配置
一、HDFS文件系统:大数据开发中首先需要解决的问题:大量数据如何存储、如何存储的大量数据进行分析大量数据如何存储:1.更换硬盘:纵向扩展(扩展一个点的能力来支撑更大的请求)局限于:受限于磁盘容量、读写速度、当前电脑的硬件配置,使得数据的读写时间不符合大数据的特点:扩展性不好2.用多台电脑存储:横向扩展(扩展多个节点用来支撑更大的请求)使用横向扩展存在的问题:1)如何保证数据的完...原创 2018-12-07 11:33:32 · 1695 阅读 · 0 评论 -
HDFS集群搭建
一、HDFS集群的搭建:1.准备四台虚拟机:1台namenode master3台datanode slave1/slave2/slave31台secondaryNameNode slave2->通过克隆2.修改虚拟机分配的内存内存512MB3.启动四台虚拟机4.修改IP地址:修改网卡(/etc/sysconfig/network-scripts/ifcfg-e...原创 2018-12-07 11:36:16 · 169 阅读 · 0 评论 -
MapReduce分区/自定义输入输出
一、分区实现:MapperReduce程序中默认只有reducer组件,只有一个分区。分区的实现是key的哈希算法实现。分区只负责将对应的key-value键值对放在那个reducer组件中去执行1、创建自定义分区类,继承Partitioner2、在Partitioner指定类型和Reducer组件的输入类型相同3、在getPartition(key,value)方法设定分区策略(自定...原创 2018-12-07 11:42:37 · 597 阅读 · 0 评论 -
Apache Pig简单使用实例
PIG介绍:Pig是MapReduce的一个抽象。是一个平台/工具,用于分析较大的数据集,并将它们表示为数据流。Pig包括两部分内容:(1)用于描述数据流的语言,称为 Pig Latin(2)用于运行Pig Latin程序的执行坏境,当前有两个环境:单JVM的本地执行坏境 - Hadoop集群的分布式坏境为什么需要Pig:不太擅长Java的程序员通常不习惯使用Hadoop(MapRed...原创 2019-03-26 10:02:09 · 1836 阅读 · 1 评论 -
Hive分区表操作
分区表操作:提高数据查询效率创建分区表:CREATE EXTERNAL TABLE *(...) PARTITIONED BY(name type...);//分区内容直接作为列静态导入:按照用户指定的分区值导入数据eg1:分区存储下列信息1001,Lucy,US,COO1002,Mary,US,GM1003,马云,CH,CEO1004,马化腾,CH,COO1005,王健林,CH,CTO1006,...原创 2019-04-11 17:15:49 · 3036 阅读 · 1 评论 -
Hive配置及简单使用
Hive简介:hive数据仓库。以Hadoop为基础,来对HDFS上的数据进行分析,会将程序执行转换为MR。Hive不存储数据,数据还是存储在HDFS上。Hive中数据库、表的本质,是一个目录。改目录默认为 /user/hive/warehouse新建一个test数据库会生成/user/hive/warehouse/test.db目录 用来表示test数据库。Hive通过元数据来管理...原创 2019-04-11 17:23:50 · 323 阅读 · 0 评论 -
Sqoop安装与Sqoop导入导出
一、Sqoop介绍:数据迁移工具Sqoop用于在Hadoop(HDFS)和关系型数据库之间,进行数据的迁移。Sqoop的导入:将关系型数据库中的数据导入到HDFS中Sqoop的导出:将HDFS的数据导出到关系型数据中本质:将导入或导出命令翻译成 MapReduce 程序来实现在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制二、S...原创 2019-04-26 21:20:04 · 198 阅读 · 0 评论