![](https://img-blog.csdnimg.cn/20201031171314621.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据组件
文章平均质量分 78
大数据组件、数据仓库、数据应用
crazy_gai
这个作者很懒,什么都没留下…
展开
-
hadoop配置ssh免登陆原理
一、什么是SSH SSH是英文Secure Shell的简写形式。通过使用SSH,你可以把所有传输的数据进行加密,这样"中间人"这种攻击方式就不可能实现了,而且也能够防止DNS欺骗和IP欺骗。使用SSH,还有一个额外的好处就是传输的数据是经过压缩的,所以可以加快传输的速度。SSH有很多功能,它既可以代替Telnet,又可以为FTP、Pop、甚至为PPP提供一个安全的"通道"。二、主原创 2015-05-15 20:48:54 · 1008 阅读 · 0 评论 -
Hbase的java接口
public class HbaseDemo { private Configuration conf = null; @Before public void init(){ conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "hadoop01,hadoop02,hadoop03");转载 2015-05-30 16:28:54 · 1030 阅读 · 0 评论 -
RPC基本概念
一、RPC简介 1.RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 2.RPC采用客户机/服务器模式。请求程序就是一个客户机,原创 2015-05-22 09:49:15 · 1832 阅读 · 0 评论 -
Hadoop之HDFS的Shell脚本命令总结
一、HDFS的Shell的基本概念 1.调用文件系统(FS)Shell命令应使用 bin/hadoop fs 命令或 bin/hdfs dfs 命令的形式。[为了简便,一般将bin目录添加到path中] 2.所有的FS shell命令使用URI路径作为参数。 URI格式是scheme://authority/path。HDFS的scheme是hdfs,原创 2015-05-22 15:05:17 · 6218 阅读 · 0 评论 -
Hive表
一、Hive运行模式 1.Hive的运行模式即任务的执行环境 2.分为本地与集群两种,我们可以通过mapred.job.tracker 来指明 设置方式:hive > SET mapred.job.tracker=local二、Hive的启动方式 1.hive 命令行模式,直接输入#/hive/bin/hive的执行程序原创 2015-05-31 20:46:48 · 1750 阅读 · 0 评论 -
Hive的UDF
1、UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容。2、编写UDF函数的时候需要注意一下几点: a)自定义UDF需要继承org.apache.hadoop.hive.ql.UDF。 b)需要实现evaluate函数,evaluate函数支持重载。原创 2015-06-03 15:19:37 · 1638 阅读 · 0 评论 -
Hadoop之HDFS的API
一、FileSystem类提供基本的文件处理功能 import org.apache.hadoop.fs.FileSystem Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); core-site.xml: fs.de原创 2015-05-22 16:53:38 · 793 阅读 · 0 评论 -
Hadoop之MapReduce概念
一、MapReduce概述 1.MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. 2.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。 3.这两个函数的形参是key、value对,表示函数的输入信息。二、Mapr原创 2015-05-23 16:50:46 · 1512 阅读 · 0 评论 -
Hadoop之MapReduce—Wordcount扩展
一、查看所给的数据文件 Case 1:整个文件可以加载到内存中; Case 2:文件太大不能加载到内存中,但可以存放到内存中; Case 3:文件太大无法加载到内存中,且也不行;二、问题规范化 将问题范化为:有一批文件(规模为TB级或者 PB级),如何统计这些文件中所有单词出现的次数; 方案:首先,分别统计每个文件中单词出现次数原创 2015-05-23 18:28:24 · 506 阅读 · 0 评论 -
Hadoop之MapReduce—Wordcount
一、问题描述 场景:有大量文件,里面存储了单词 任务:如何统计每个单词出现的次数?二、数据格式 2.1 输入数据 hello tom hello jerry hello kitty hello world hello tom 2.2 输出格式 hello 5原创 2015-05-23 17:51:02 · 733 阅读 · 0 评论 -
Hadoop之MapReduce编程模型
一、MapReduce编程模型 MapReduce将作业的整个运行过程分为两个阶段:Map阶段和Reduce阶段 Map阶段由一定数量的Map Task组成 输入数据格式解析:InputFormat 输入数据处理:Mapper 数据分组:Partitioner Redu原创 2015-05-24 14:36:47 · 8047 阅读 · 1 评论 -
Hadoop序列化
一、序列化概念 1 序列化(Serialization)是指把结构化对象转化为字节流。 2 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 3 Java序列化(java.io.Serializable)。二、Hadoop序列化的特点 1 紧凑:高效使用存储空间。原创 2015-05-26 09:06:17 · 679 阅读 · 0 评论 -
Hbase简介(很好的梳理材料)
一、 简介 historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apac转载 2015-05-30 08:47:09 · 1881 阅读 · 0 评论 -
hive安装(单节点)
1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps rpm原创 2015-05-31 20:14:22 · 2092 阅读 · 0 评论 -
sqoop简介及安装
一、sqoop简介 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二、sqoop安装1.上传sqoop(WinSCP)2.安装和配置 在添加sqoop到环境变量 将...原创 2015-05-29 00:31:50 · 716 阅读 · 0 评论 -
hadoop简介
1 hadoop是什么? What Is Apache Hadoop? The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.2 解决问题: 海量数据的存储(HDFS) 海量数据的分析(MapReduce) 资源管理调度(原创 2015-05-15 20:21:00 · 564 阅读 · 0 评论 -
hadoop2.2.0伪分布式搭建
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改 subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键原创 2015-05-15 20:34:10 · 391 阅读 · 0 评论 -
Hadoop序列化案例
一、问题描述 根据所给的数据输出每一个手机号上网的上载流量、下载流量和总流量。二、数据格式 输入数据(部分)格式 1363157973098 15013685858 5C-0E-8B-C7-F7-90:CMCC 120.197.40.4 rank.ie.sogou.com 搜索引擎 28 27原创 2015-05-26 09:45:31 · 695 阅读 · 0 评论 -
Hadoop之MapReduce-自定义排序编程
一、问题描述 根据给出的数据计算每一个用户总的收入,总的支出以及总利润,并按照总利润由高到低排序,如果总利润相同,则按照总的支出由高到低排序。二、数据格式 2.1输入数据格式 zhangsan@163.com 6000 0 2014-02-20 lisi@163.com 3000 2000原创 2015-05-26 21:03:49 · 741 阅读 · 0 评论 -
Zookeeper入门
一、什么是Zookeeper? Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。二、为什么使用Zookeeper? 1.大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等)原创 2015-05-27 19:28:42 · 527 阅读 · 0 评论 -
Hadoop之MapReduce-倒排索引案例
一、问题描述 统计每个单词在各个文件中出现的次数。二、所给数据 1. 输入数据: a.txt: b.txt hello tom hello jerry hello jerry hello tom原创 2015-05-27 18:28:42 · 944 阅读 · 0 评论 -
hadoop-2.4.1 集群搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译集群搭建步骤:1.修改Lin原创 2015-05-28 14:20:03 · 618 阅读 · 0 评论 -
Hadoop之HDFS基本概念
1.分布式文件系统(Distributed File System) 由来:数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 定义:是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 特点:通透性,让实际原创 2015-05-21 19:09:40 · 3633 阅读 · 0 评论 -
Hadoop之HDFS文件读写过程
一、HDFS读过程 1.1 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStream inStream = fs.原创 2015-05-22 16:04:45 · 20234 阅读 · 2 评论 -
hive入门
什么是Hive Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 ma原创 2015-05-31 12:33:27 · 753 阅读 · 0 评论 -
Hbase集群搭建
1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 【注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下】 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55 //告诉hbase使用外部的zk e原创 2015-05-30 09:42:22 · 602 阅读 · 0 评论 -
HBASE Shell
hbase提供了一个shell的终端给用户交互名称命令表达式创建表create '表名称', '列族名称1','列族名称2','列族名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'原创 2015-05-30 15:58:26 · 801 阅读 · 0 评论 -
Hadoop之MapReduce-Partition编程
一、问题描述 在Hadoop序列化案例(http://blog.csdn.net/gaijianwei/article/details/46004025)的基础上,将输出的数据按照手机号所属的运营商进行分区。二、问题实现 DataCount代码(只是对Hadoop序列化案例的DataCount代码稍作修改)package edu.jianwei.hadoop原创 2015-05-26 18:27:36 · 679 阅读 · 0 评论