尘埃落定55-CSDN博客

原创 Hive和关系型数据库的区别

1. 查询语言。由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive的特性设计了类 SQL的查询语言 HQL。熟悉SQL 开发的开发者可以很方便的使用Hive 进行开发。2. 数据存储位置。Hive 是建立在 Hadoop之上的，所有 Hive的数据都是存储在 HDFS中的。而数据库则可以将数据保存在块设备或者本地文件系统中。3. 数据格式。

2016-06-26 17:53:16 4499

原创 Hive和HBase的区别

1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种K

2016-06-26 17:50:40 559

原创 spark入门

Spark快速入门指南 – Spark安装与基础使用 2016-01-15 (updated: 2016-03-07) 6309 29Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 正如其名，最大的特点就是快（Lightning-fast），可比 Hadoop MapReduce 的处理速度快 100 倍。此外，Spark 提供了简

2016-06-25 21:44:55 1808

原创 Scala入门

scala介绍Scala语言来自于Scalable（可伸缩的）既可以写一些小的脚本，又可以写一写复杂的服务器端的程序。Scala是一门纯正的面向对象语言，具有OO特征。Scala是一门函数式语言，可以用函数式思想来编写代码Scala是构建于JVM之上的，与java可以无缝互操作。函数式编程思想函数式编程基本名词介绍纯函数来编写程序。纯函数（Pure Func

2016-06-25 21:41:29 1839

转载 Hadoop序列化

在第一步中，客户端编写好了代码并打包成jar包，会提交到集群中，也就是Cluster中，通讯方式就是通过RPC来通讯的。（RPC的一个最简单示例）当集群收到请求后，就会告诉yarn，请求分配资源。当yarn处理之后，会返回一个地址给client（第二步）。客户端去这个地址拷贝jar包（第三步）。第四步就是提交任务给RM，主要提交的是任务的描述信息，比如jobID、jar包存在的位置

2016-06-25 19:39:35 414

转载 hadoop HDFS入门

hadoop主要分为三个模块：HDFS、MapReduce、Yarnhadoop具体能干什么：hadoop擅长日志分析海量数据存储 hadoop具有很多节点，节点叫DataNode。每一个块在节点上存多个副本。海量数据计算 map本地局部处理。 reduce通过网络取得其他节点的统计结果。HDFS的实现思想：hdfs是通过分

2016-06-25 19:38:02 714

转载 hadoop DataNode节点超时

DataNode节点超时时间设置DataNode进程死亡或网络节点故障造成DataNode无法与NameNode通信，NameNode不会立即把该节点判定为死亡，要经过一段时间，这段时间成为超时时长。HDFS默认的超时时长为10分钟+30s。如果定义超时时长为timeout，则超时时长的计算公式为： timeout = 2 * heartbeat.recheck.interval

2016-06-25 19:36:06 442

原创 Linux命令总结

Linux命令总结

2016-06-24 21:51:11 320

原创 Python实现简单的爬虫

Python原包实现网络爬虫功能

2016-06-23 11:16:40 3810

转载 Shuffle过程详解

Shuffle过程详解 Shuffle过程是MapReduce的核心，最近看了很多资料，网上说法大体相同，但有些地方有一点点出入，就是各个阶段的执行顺序总个shuffle过程可以看做是从map输出到reduce输入的这个中间过程，在这个中间过程中，经过了一系列的步骤下面看看官方给出的图 Map端下面是我画的一张图 1.In

2016-06-21 08:31:38 833

转载 Java设计模式——代理模式

代理描述 1.生活中：代理就是一个人或者一个组织代表其他人去做一件事的现实生活中的。在一些情况下，一个客户不想或者不能够直接引用一个对象，而代理对象可以在客户端和目标对象之间起到中介的作用。2.官方：代理模式是对象的结构模式。代理模式给某一个对象提供一个代理对象，并由代理对象控制对原对象的引用一、静态代理类图结构如下在代理模式中的角色：　　●　　

2016-06-21 08:29:47 302

转载 Java设计模式——工厂模式

工厂模式一、引言二、分类三、简单工厂模式四、工厂方法模式五、抽象工厂模式六、和工厂方法模式区别七、总结工厂模式在面向对象编程中, 最通常的方法是一个new操作符产生一个对象实例,new操作符就是用来构造对象实例的。但是在一些情况下, new操作符直接生成对象会带来一些问题。举例来说, 许多类型对象的创造需要一系列的步骤: 你可能需要计算或取得

2016-06-21 08:28:25 239

转载 Java设计模式——单例模式

单例模式一、特点：二．分类 (一)、懒汉式单例 (二)、双重检查锁定 (三)、静态(类级)内部类 (四)、饿汉式单例 (五)、单例和枚举三、饿汉式和懒汉式区别一、特点：　　1、单例类只能有一个实例。　　2、单例类必须自己创建自己的唯一实例。　　3、单例类必须给所有其他对象提供这一实例。　　单例模式确保某个类只有一个实例，而且

2016-06-21 08:26:26 251

转载 Hive文件格式

Hive文件格式

2016-06-20 20:39:44 371

转载 Java面试汇总

java面试

2016-06-20 20:36:02 5131

原创 HBase 使用 Java Api 实现对数据的增删改查

HBase 使用 Java Api 实现对数据的增删改查

2016-06-20 16:47:40 1124

原创 HBase常用Shell命令

hbase shell

2016-06-20 14:29:34 525

原创 HBase基本概念

HBase基本概念

2016-06-20 14:23:33 941

原创 hive命令实例

1、把本地文件上传到hdfs： load data local inpath '/home/kun/soft/xxx.data' into table t_order;2、统计表中dept_name个数 select dept_name,count(1) from t group by dept_name;3、新建一个跟b一样的表结构的a表： create t

2016-05-13 17:09:19 603

原创 hadoop hive安装，并使用mysql数据库

1、下载hive-0.12.0并解压到soft下2、配置hive环境变量：kun@hadoop-master:~$ sudo gedit /etc/profileexport HIVE_HOME=/home/kun/soft/hive-0.12.0export PATH=:$HIVE_HOME/binkun@hadoop-master:~$ source /etc/pro

2016-05-13 16:56:18 885

原创 hadoop2.7.1 HA配置

1、下载zookeeper-3.4.5安装包，并解压在soft下2、配置环境变量：kun@hadoop-master:~$ sudo gedit /etc/profileexport ZOOKEEPER_HOME=/home/kun/soft/zookeeper-3.4.5export PATH=:$ZOOKEEPER_HOME/binkun@hadoop-master:~$ sourc

2016-05-13 16:35:34 554

原创用hadoop2.7.1 mapreduce实现QQ好友推荐功能

Hadoop实现QQ好友推荐功能

2016-05-13 16:18:56 2939

原创 hadoop-2.7.1 MapReduce自定义分组的实现

对数据中电话进行分组，并统计上传、下载、总流量1、待处理的数据为：1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.19

2016-05-13 15:50:36 746

原创用MapReduce处理一组流量数据，并按总流量排序

用MapReduce处理一组流量数据、并排序

2016-05-13 14:40:02 2378

原创 Hadoop完全分布式集群搭建

ubuntu上安装 vmware workstation 12，hadoop完全分布式搭建，wordcount在完全分布式上的运行。

2016-04-28 09:36:03 529

原创 Hadoop单机模式，并执行WordCount

Ubuntu环境下安装java jdk，搭建hadoop单机模式

2016-04-28 08:49:22 958

jiang0426的博客