- 博客(15)
- 资源 (4)
- 收藏
- 关注
原创 hive大量数据导入分区表时过慢优化
原加载数据代码reduce先将数据写入到hdfs,再load加载数据public static void main(String[] args) throws URISyntaxException, IOException, TaskExecFailException { //设置链接的服务器 ConnBean connBe...
2019-12-25 01:18:13 1780
原创 使用bulkload的方式将数据直接生成HFile格式时报错异常问题
HBase与MapReduce的集成中使用bulkload的方式将数据直接生成HFile格式时报错报错时代码BulkLoadMappackage com.kami.demo10;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;...
2019-12-19 03:50:46 449
原创 戴尔PowerEdge R720服务器 从RAID设置到安装系统
服务器配置型号DELL PowerEdge R720内存两条16GB REG ECC DDR3 1333Mhz硬盘3块15K 300g SAS硬盘安装配置重设系统(热引导)服务器开机,在自启动界面出现如下图字样后,按下Ctrl+R,进入RAID配置界面,情况①这是未配置过。完全初始化过的,...
2019-12-13 19:46:37 2085
原创 HBase详解
Hbase的安装部署 1、软件包的上传解压 2、修改hbase.env.sh 文件 配置JAVA_HOME 设置hbase使用外部zppkeeper export HBASE_MANAGES_ZK=false 配置 hbase-site.xml<configuration> <property> ...
2019-12-12 16:02:49 5538
原创 HBase 搭建
简介hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功...
2019-12-11 13:29:38 73
原创 Apache Impala安装部署
Impala基本介绍 impala是基于hive的大数据分析查询引擎,直接使用hive的元数据库metadata,意味着impala元数据都存储在hive的metastore当中,并且impala兼容hive的绝大多数sql语法。所以需要安装impala的话,必须先安装hive,保证hive安装成功,并且还需要启动hive的metastore服务。...
2019-12-10 21:03:29 404
原创 Apache ZooKeeper 集群搭建
Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。zookeeper安装安装z...
2019-12-10 16:57:56 86
原创 Apache Hue的安装
Hue是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来...
2019-12-06 22:04:34 100
原创 一个轻量的工具集合 - MikuTools
①官方地址:https://miku.tools②开源版本截图开源版本安装Github地址:https://github.com/Ice-Hazymoon/MikuTools编译环境 Centos 6.9安装Nodejscurl -sL https://rpm.nodesource.com/setup_10.x | bash - yum...
2019-12-06 11:03:53 1593
原创 Azkaban solo-server模式 安装部署
Azkaban介绍Azkaban是由linkedin(领英)公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。安装过程编译准备编译环境yum install –y gityum ...
2019-12-06 10:27:35 111
原创 Sqoop导入导出常见错误
1.Sqoop导入数据到HDFSHIVE报错 Hive exited with status 1报错信息 :ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 1原因①mysql中的hi...
2019-12-05 09:28:48 728
原创 Hadoop Flume搭建
flume是什么apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中安装部署Flume的安装非常简单上传...
2019-12-05 04:47:58 125
原创 数组,List,Set相互转化
1.数组转化为List:String[] strArray= new String[]{"Tom", "Bob", "Jane"};List strList= Arrays.asList(strArray);2.数组转SetString[] strArray= new String[]{"Tom", "Bob", "Jane"};Set staffsSet = ne...
2019-12-03 08:48:12 88
原创 HIVE HWI 搭建过程
众所周知,Hive有三种使用方式:CLI、HWI浏览器、Thrift客户端。安装配置完Hive后无需进行额外操作即可使用CLI。但是HWI则需要单独搭建。搭建HWI过程前置需求安装ANT并配置环境变量(注意版本)https://www.apache.org/dist/ant/binaries/①下载源代码下载源代码,根据自己的hive版本下载http://archive.apache....
2019-12-02 15:36:43 5531
原创 Apache Sqoop搭建
一、简介Apache Sqoop是在Hadoop生基金会提供核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hive 相比,并没有什么高深的理论Sqoop...
2019-12-02 09:22:22 5725
TPC-H 2.18.0
2020-12-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人