2019年12月_kamisamak

12月 11月 10月

原创 hive大量数据导入分区表时过慢优化

原加载数据代码reduce先将数据写入到hdfs,再load加载数据public static void main(String[] args) throws URISyntaxException, IOException, TaskExecFailException { //设置链接的服务器 ConnBean connBe...

2019-12-25 01:18:13 1780

原创使用bulkload的方式将数据直接生成HFile格式时报错异常问题

HBase与MapReduce的集成中使用bulkload的方式将数据直接生成HFile格式时报错报错时代码BulkLoadMappackage com.kami.demo10;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;...

2019-12-19 03:50:46 449

原创戴尔PowerEdge R720服务器从RAID设置到安装系统

服务器配置型号DELL PowerEdge R720内存两条16GB REG ECC DDR3 1333Mhz硬盘3块15K 300g SAS硬盘安装配置重设系统(热引导)服务器开机，在自启动界面出现如下图字样后，按下Ctrl+R，进入RAID配置界面，情况①这是未配置过。完全初始化过的，...

2019-12-13 19:46:37 2085

原创 HBase详解

Hbase的安装部署 1、软件包的上传解压 2、修改hbase.env.sh 文件配置JAVA_HOME 设置hbase使用外部zppkeeper export HBASE_MANAGES_ZK=false 配置 hbase-site.xml<configuration> <property> ...

2019-12-12 16:02:49 5538

原创 HBase 搭建

简介hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功...

2019-12-11 13:29:38 73

原创 Apache Impala安装部署

Impala基本介绍 impala是基于hive的大数据分析查询引擎，直接使用hive的元数据库metadata，意味着impala元数据都存储在hive的metastore当中，并且impala兼容hive的绝大多数sql语法。所以需要安装impala的话，必须先安装hive，保证hive安装成功，并且还需要启动hive的metastore服务。...

2019-12-10 21:03:29 404

原创 Apache ZooKeeper 集群搭建

Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。zookeeper安装安装z...

2019-12-10 16:57:56 86

原创 Apache Hue的安装

Hue是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue，可以在浏览器端的Web控制台上与Hadoop集群进行交互，来...

2019-12-06 22:04:34 100

原创一个轻量的工具集合 - MikuTools

①官方地址：https://miku.tools②开源版本截图开源版本安装Github地址:https://github.com/Ice-Hazymoon/MikuTools编译环境 Centos 6.9安装Nodejscurl -sL https://rpm.nodesource.com/setup_10.x | bash - yum...

2019-12-06 11:03:53 1593

原创 Azkaban solo-server模式安装部署

Azkaban介绍Azkaban是由linkedin(领英)公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。安装过程编译准备编译环境yum install –y gityum ...

2019-12-06 10:27:35 111

原创 Sqoop导入导出常见错误

1.Sqoop导入数据到HDFSHIVE报错 Hive exited with status 1报错信息：ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 1原因①mysql中的hi...

2019-12-05 09:28:48 728

原创 Hadoop Flume搭建

flume是什么apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中安装部署Flume的安装非常简单上传...

2019-12-05 04:47:58 125

原创数组，List，Set相互转化

1.数组转化为List：String[] strArray= new String[]{"Tom", "Bob", "Jane"};List strList= Arrays.asList(strArray);2.数组转SetString[] strArray= new String[]{"Tom", "Bob", "Jane"};Set staffsSet = ne...

2019-12-03 08:48:12 88

原创 HIVE HWI 搭建过程

众所周知，Hive有三种使用方式：CLI、HWI浏览器、Thrift客户端。安装配置完Hive后无需进行额外操作即可使用CLI。但是HWI则需要单独搭建。搭建HWI过程前置需求安装ANT并配置环境变量(注意版本)https://www.apache.org/dist/ant/binaries/①下载源代码下载源代码，根据自己的hive版本下载http://archive.apache....

2019-12-02 15:36:43 5531

原创 Apache Sqoop搭建

一、简介Apache Sqoop是在Hadoop生基金会提供核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具，和 HDFS，Hive 相比，并没有什么高深的理论Sqoop...

2019-12-02 09:22:22 5725

TPC-H 2.18.0

TPC-H工具包针对数据库不同的使用场景TPC组织发布了多项测试标准。 TPC-H是决策支持的基准测试。它由一套面向业务的即席查询和并发数据修改组成。这些查询和填充数据库的数据具有广泛的行业相关性。

2020-12-16

适用于libsvm的iris数据集

2020-07-03

hive-jdbc.zip

DataGrip连接Hive 2.1.1所需Jar包整理

2020-06-16

Apache HBase 2.1.5 API.chm

Apache HBase 2.1.5 API chm格式文档 hbase-apache离线官方文档

2020-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人