小健的博客

只有登上山峰,山才会支撑你

hive分析nginx日志之UDF清洗数据

本文章来自http://www.cnblogs.com/wcwen1990/p/7080300.html hive分析nginx日志一:http://www.cnblogs.com/wcwen1990/p/7066230.html hive分析nginx日志二:http://w...

2017-09-12 00:20:09

阅读数:577

评论数:0

Hive原理

概述   Hive 将作为我日后工作主要使用的工具,这里分享一些相关的技术。我想通过讲解hive体系结构来建立基础。这个部分非常重要,因为接下来的文章中我们会以这些概念来加深我们对HIve的认识。当我们执行一个查询时,在中最重要的组件有哪些,下面这张图片可以给大家一个概观的认识。   ...

2017-09-06 15:42:43

阅读数:133

评论数:0

Sqoop常见错误及解决方式

1.java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver 17/09/05 09:12:30 ERROR sqoop.Sqoop: Got exception running Sqoop:...

2017-09-05 10:16:56

阅读数:616

评论数:0

Hive中如何创建内部表和外部表以及它们的区别

1.内部表(也称为管理表)的创建: create table if not exists student( id int, name string, age int ) row format delimited fields terminated by '\t'; //加载HDFS文...

2017-09-05 03:50:23

阅读数:508

评论数:0

Hive日志默认存储在什么位置?

Hive日志默认存储在什么位置?

2017-09-05 02:27:00

阅读数:3403

评论数:0

Hive中常出现的错误(不定时更新)

1.加载数据失败 hive> load data local inpath '/home/user/hive.txt' into table studentl > ; FAILED: SemanticException [Error 10001]: Line 1:56 Tabl...

2017-09-05 02:17:34

阅读数:617

评论数:0

Linux:ping不通baidu.com

如果某台Linux服务器ping不通域名, 如下提示:  [root@localhost ~]# ping www.baidu.com ping: unknown host www.baidu.com 首先确定已经连接上路由器,并且路由器能够访问外网,可以通过访问网关进行确定 [r...

2017-09-04 23:35:54

阅读数:7461

评论数:0

解决spark运行中ERROR Shell:Failed to locate the winutils binary in the hadoop binary path的问题

17/09/03 21:27:13 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\b...

2017-09-03 21:32:24

阅读数:1127

评论数:0

Hadoop是什么

原文链接:http://os.51cto.com/art/201207/346023.htm Hadoop是什么?hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoo...

2017-08-29 21:11:55

阅读数:145

评论数:0

Spark的架构

架构组件基本概念: Spark集群中的Master负责集群整体资源管理和调度,Worker负责单个节点的资源管理。Driver程序是应用逻辑执行的起点,而多个Executor用来数据进行并行处理。 Spark的构成: -ClusterManager:在standalo...

2017-08-29 20:09:29

阅读数:412

评论数:0

Spark学习之RDD基本操作

Spark里的计算都是由RDD进行的,那么如何构建一个RDD对象? 构建RDD对象从数据来源角度可以分为两类: 1.从内存中直接读取数据 使用方法:makeRDD或者parallelize 演示: val rdd = sc.makeRDD(List(1,2,3,4)) val r...

2017-08-24 23:57:06

阅读数:135

评论数:0

Scala学习之构造器

Scala的构造器和Java的构造器完全不同,不要搞混淆! Scala的构造器分为: 主构造器 辅助构造器(从构造器) 与Java构造不同之处在与Scala不需要定义与类名相同的方法作为构造器 主构造器: 主构造器的参数列表直接写在类...

2017-08-24 23:45:16

阅读数:871

评论数:1

Scala面向对象编程之对象

须知:此对象非彼对象,并不是根据Class new出来的那个对象,而是Scala中内有的对象 object

2017-08-22 20:41:30

阅读数:141

评论数:0

Scala面向对象之伴生类与伴生对象详解

在Scala中,类和伴生对象可以相互访问private filed 伴生类与伴生对象 /** * 1.伴生类和伴生对象必须存放在一个.scala文件中 * 2.如果有一个class和object同名,那么就称这个object为class的伴生对象,反之class为object的伴生类 *...

2017-08-22 18:29:25

阅读数:109

评论数:0

HBase常用命令及使用

常用HBase Shell命令 名称 命令表达式 创建表 create '表名称’,'列名称1’,'列名称2’,...'列名称n' 添加记录 put '表名称’,'行名称',‘值’ 查看记录 get ‘表名称’,‘行名称’ 查看表的总记录数 count ‘表名称’ ...

2017-08-13 11:40:05

阅读数:130

评论数:0

HBase伪分布式的搭建

搭建前提条件: 1.hadoop环境(启动相关进程) 2.zookeeper环境(启动zookeeper) 安装HBase 1.解压安装 tar -zxf  hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/modules/cdh 2.配置文件修改 ...

2017-08-12 12:53:23

阅读数:128

评论数:0

HBase概念、基本架构及原理

概述 HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发的,典型的key/value系统; HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储; 从逻辑上讲,HBase将数据按...

2017-08-12 11:14:34

阅读数:115

评论数:0

Kafka的安装与简单测试

Kafka的安装 kafka_2.10-0.8.2.1 ** 2.10是scala的版本,kafka是用Scala开发的,scale的安装版本应该对应 ** 0.8.2.1是kafka的版本 1.安装Scala tar zxvf /opt/softwa...

2017-08-11 00:13:12

阅读数:502

评论数:0

Kafka简介

Kafka是一种高吞吐量的分布式发布订阅消息系统,使用Scala编写。 对于熟悉JMS(Java Message Service)规范的同学来说,消息系统已经不是什么新概念了(例如ActiveMQ,RabbitMQ等)。 Kafka拥有作为一个消息系统应该具备的功能,但是确有着独特的设计。可以...

2017-08-10 23:30:27

阅读数:113

评论数:0

Hue与hadoop的集成配置

基于上一节的Hue的安装,本章介绍Hue的集成 1.Hue与hadoop的集成 a.配置[HADOOP_HOME]etc/Hadoop/hdfs-site.xml(追加) dfs.webhdfs.enabled true dfs.permissions.enabled ...

2017-08-10 23:08:25

阅读数:199

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭