2018年05月_BigData_Hadoop

原创 HiveQL学习笔记

HiveQL学习笔记1、SQL和HiveQL的概要比较特性 SQL HiveQL 更新 UPDATA , INSERT, DELETE UPDATE, INSERT, DELETE 事务支持有限支持索引支持支持延迟亚秒级分钟级数据类型整数，浮点数，定点数，文本和二进制串，时间...

2018-05-31 10:07:32 316

原创 Hive学习笔记

Hive笔记1、 Hive的shell环境hive&gt;show tables; hive&gt;hive –e ‘select * from dummy’ 生成简单单行表: echo ‘X’ &gt; /tmp/dummy.txt hive –e “create table dummy(value string); load data local inpath ‘/tmp...

2018-05-31 09:54:39 486

原创 Python_快速排序

快速排序有三个变量：low（left），hight（right），key（其中left，right代表数组的首尾，是不变值） low是指向数组左边的指针，hight是指向数组右边的指针，key是比较的基准。在执行快速排序的过程中，首先hight从有到左移动，如果low小于hight，而且hight指向的值大于key，那么hight就继续往左移动如果hight指向的数据小于了key，那么就...

2018-05-30 11:09:33 237

原创 HDFS学习笔记

Hdfs笔记1、分布式文件系统主节点：数据目录（元数据）服务从节点：具体完成数据的存储任务 HDFS：兼容廉价的硬件设备，实现流数据读写，支持大数据集，支持简单的文件模型，强大的跨平台兼容性 HDFS局限性：不适合低延迟数据访问，无法高效存储大量小文件，不支持多用户写入以及任意修改文件。2、 HDFS相关概念快：1、为了分摊磁盘读写开销，也就是...

2018-05-29 20:53:03 681

原创 Sqoop学习笔记

Sqooop学习随笔 HDFS能够可靠的存储日志和来自不同渠道的其他数据，MapReduce程序能够解析多种特定的（adhoc）数据格式1、 Sqoop允许用户将数据从结构化存储器抽取到Hadoop中。2、 Sqoop连接器Sqoop拥有一个可扩展的框架，使得它能够从（向）任何支持批量数据传输的外部存储系统导入（导出）数据。3、文本和二进制文件格式...

2018-05-29 17:11:15 256

原创 Spark的安装与配置

Spark是一个开源集群运算框架，Spark在存储器内运行程序运算速度比Hadoop MapReduce的运算快100倍以上。

2018-05-18 18:01:04 544 1

原创 HBase的安装与部署

HBase是一个分布式的，面向列的开源数据库，是Google三大论文之一的“BigTable”的开源实现，它适合于非结构化数据存储。

2018-05-18 11:52:28 258

原创 hadoop拒绝远程连接解决办法

我在主机上配置好hadoop之后，开启hadoop服务，在同一个局域网下的另一台主机使用eclipse连接hadoop，虽然创建连接成功，但是进行上传文件的时候会报如下错误

2018-05-18 11:37:07 4397

原创 Hive的安装与配置

安装和配置Hive，前提你已经成功安装和配置了Hadoop。

2018-05-16 09:49:32 759

原创第一个MapReduce程序

第一个程序一般都是Hello World，所以说MapReduce的第一个程序就是单词计数，主要代码如下：package Temperature;import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.*;import or...

2018-05-15 15:07:17 217

原创 Hadoop on Windows Error JAVA_HOME is incorrectly set

Hadoop on Windows Error JAVA_HOME is incorrectly set

2018-05-15 15:05:17 465

Li_and_Li的博客