大数据
文章平均质量分 79
tangdong3415
这个作者很懒,什么都没留下…
展开
-
大数据学习-hadoop -第一课
大数据学习之路之hadoop学习原创 2016-07-20 15:26:22 · 1346 阅读 · 0 评论 -
Hive学习 第四课 创建表并load 数据到表
本章将介绍如何创建一个表以及如何将数据插入。创造表的约定在Hive中非常类似于使用SQL创建表。CREATE TABLE语句Create Table是用于在Hive中创建表的语句。语法和示例如下:语法CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name[(col_name data_t原创 2017-05-20 10:51:24 · 669 阅读 · 0 评论 -
Hive学习第三课 创建数据库和删除数据库
Hive是一种数据库技术,可以定义数据库和表来分析结构化数据。主题结构化数据分析是以表方式存储数据,并通过查询来分析。本章介绍如何创建Hive 数据库。配置单元包含一个名为 default 默认的数据库。CREATE DATABASE语句创建数据库是用来创建数据库在Hive中语句。在Hive数据库是一个命名空间或表的集合。此语法声明如下:CREATE DATABASE|SCHEMA [原创 2017-05-20 10:44:47 · 574 阅读 · 0 评论 -
Hive学习 第二课 hive安装
第1步:验证JAVA安装在Hive安装之前,Java必须在系统上已经安装。使用下面的命令来验证是否已经安装Java:$ java –version如果Java已经安装在系统上,就可以看到如下回应:java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM转载 2017-05-20 09:54:29 · 604 阅读 · 0 评论 -
Hive学习 第一课
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive 不是一个关系数据库一个设计用于联机事务处理(OLTP)实时查询和行级更新的语言Hiver特点它存储架构在一个数据库中并处理数据到HDFS。它是专为OLA原创 2017-05-20 09:49:45 · 344 阅读 · 0 评论 -
greenplum创建表,修改表语句
外部表创建服务器后台gpfdist -p 8081 -d /var/data/staging -l /home/gpadmin/log &创建以|为分隔符的外部表CREATE EXTERNAL TABLE ext_expenses ( name text,date date, amount float4, category text, desc1 text )LOCATIO原创 2017-01-23 10:53:28 · 3467 阅读 · 0 评论 -
greenplum创建表,修改表语句
创建表检查约束CREATE TABLE products( product_no integer,name text,price numeric CHECK (price > 0) );创建非空约束CREATE TABLE products( product_no integer NOT NULL,name text NOT NULL,price numer原创 2017-01-23 10:52:09 · 16629 阅读 · 0 评论 -
greenplum安装详细过程
1、准备 这里准备了4台服务器,1台做master,1台做standby,4台都做存储,为了保密真实的IP地址和主机名都换成“艺名”了。OS:Red Hat Enterprise Linux Server release 6.4 (Santiago) GP:greenplum-db-4.3.6.2-build-1-RHEL5-x86_64.zipJDK:1.7+192.1转载 2017-01-17 15:13:07 · 3701 阅读 · 0 评论 -
使用Storm实现实时大数据分析
当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单,因为用它处理大数据原创 2017-01-10 18:21:00 · 290 阅读 · 0 评论 -
hadoop hdfs HA原理讲解、脑裂问题产生
Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 为什么要Namenode HA?1. NameNode High Availability即高可用。2. NameNode 很重要,挂掉会导致存储停止服务,无法进行数据的读写,基于此NameNode的计算(MR,原创 2017-01-13 13:21:17 · 6613 阅读 · 1 评论 -
ELK + Redis 日志分析系统 -学习第一天
ELK + Redis 日志分析系统 -学习第一天原创 2016-12-19 19:30:10 · 1338 阅读 · 0 评论 -
kafka 学习 非常详细的经典教程
非常详细的经典教程 。 带你从入门、到精通。 原理讲解转载 2016-12-02 10:27:00 · 122121 阅读 · 18 评论 -
大数据学习-hadoop -第四课
MapReduce学习Map”:主结点读入输入数据,把它分成可以用相同方法解决的小数据块(这里是一个分而治之的思想),然后把这些小数据块分发到不同的工作节点上(worder nodes)上,每一个工作节点(worder node)循环做同样的事,这就行成了一个树行结构(分布式计算中的很多模型都和图论有关,pageRank也是),而每一个叶子节点有来处理每一个具体的小数据块,再把这些处理原创 2016-07-21 11:31:14 · 730 阅读 · 0 评论 -
大数据学习-hadoop -第三课附加- hadoop RPC源码分析
RPC client 同服务端的连接其实就是一个普通的socke ,数据发送其实就是java io的socket发送数据的一般过程哦。 RPC server端则是用的NIO接收,通过一个Listener 处理得到的客户端的请求。Reader类中的doRead()方法和Server.Connection类中的readAndProcess()方法是真正的处理客户端请求的方法。原创 2016-07-20 19:00:22 · 417 阅读 · 0 评论 -
大数据学习-hadoop -第三课
接着学NIO java NIO的原理和具体实现一.java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 假如现在你对阻塞I/O已有了一定了解,我们知道阻塞I/O在调用InputStream.read()方法时是阻塞的,它会一直等到数据到来时(或超时)才会返回;同样,在调用ServerSocket.accept()方法时,也会一直阻塞到有客户端连接才会返原创 2016-07-20 17:15:55 · 329 阅读 · 0 评论 -
大数据学习-hadoop -第二课
第二课DataNode和NameNode之间的控制信息的交流是通过RPC机制完成的。但发现不会RPC,去学RPC,发现需要了解动态代理和java NIO。因此,再复习 动态代理和java NIODataNode端是通过获得NameNode的代理,通过该代理和NameNode进行通信的。而实现一个动态代理大概如下:直接上代码import java.lang.reflect.Invocati原创 2016-07-20 16:57:32 · 420 阅读 · 0 评论 -
Hive学习 第五课 修改表名修改列名添加列并删除或替换列。
本章将介绍如何修改表的属性,如,修改表名,修改列名,添加列,并删除或替换列。Alter Table 语句它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTE转载 2017-05-20 11:00:05 · 3740 阅读 · 0 评论