自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (4)
  • 收藏
  • 关注

原创 大数据系列全套学习路线图

Cloudera ManagerCloudera Manager平台部署说明书Hadoop大数据Hadoop系列之Hadoop分布式集群部署 大数据Hadoop系列之Hadoop机架感知配置 大数据Hadoop系列之HDFS命令讲解 大数据Hadoop系列之Hadoop服务开机自启动配置 大数据Hadoop系列之Hadoop Web控制台添加身份验证Hive大数据Hiv...

2018-09-03 18:39:24 458676

原创 大数据Phoenix系列之Phoenix基本操作

phoenix表操作、索引操作、表结构调整方式

2023-02-11 10:00:00 1161

原创 大数据HBase系列之HBase进阶操作

Normalizer操作、命令空间、replication、强制删表、快照操作

2023-02-03 22:30:00 334

原创 DB2数据库基本操作

1)启动实例db2start2)停止实例db2stop3)列出所有实例db2ilist4)列出所有数据库db2 list db directory5)连接数据库db2 connect to DBCTL user db2inst1 using edc1234566)查看数据库所有表db2 "select TABNAME from syscat.tables"7)查看数据库所有表和表大小db2 "select TABNAME,NPAGES from syscat.ta..

2021-12-31 17:08:16 1969

原创 大数据Spark系列之Spark深入原理解析

1、spark的shuffle过程父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中;中间结果写入磁盘;由子RDD拉取数据,而不是由父RDD推送;默认情况下,shuffle不会改变分区数量。2、spark的宽窄依赖窄依赖:一个父RDD的分区被子RDD的一个分区使用。1个子RDD的分区对应于1个父RDD的分区,比如map,filter,union等算子。宽依赖:一个父RDD的分区被子RDD的多个分区使用。宽依赖一般是对RDD进行groupByKey,reduceByKey,sor

2021-10-24 22:37:47 720

原创 linux操作当前分区磁盘容量升级

1. 需求目的因当前/home目录所在分区,磁盘容量饱和,需要进行分区扩容,使服务器正常运行。2. 升级步骤1)创建目录mkdir -p /media/home2)把/dev/sdb挂载到/media/homemount /dev/sdb /media/home3)同步/home到/media/home,同步时间根据数据量大小决定,建议在系统空闲时操作rsync -aXS /home/. /media/home/.4)同步完成后删除/homeumount -lf /h

2020-10-24 22:53:53 12422

原创 MySQL通过远程方式上传数据

1. 用户授权create user 'test'@'%' identified by 'test123456';grant all privileges on testdb.* to test@'%';flush privileges;2. 远程上传授权查询远程上传是否开启:show global variables like 'local_infile';远程上传授权:set global local_infile='ON';3. 远程登录启用mysql --lo

2020-10-24 22:38:53 12485

原创 大数据Hadoop系列之Map-ETL实战开发

1. 输入数据122.245.205.218^A1450572279.254^Ahadoop-master.volitation.com^A/BEIfeng.gif?u_nu=1&u_sd=DFBFABA3-9F0B-451F-B47C-782EDBFB5D90&c_time=1450572272695&ver=1&en=e_l&p...

2020-04-03 18:37:03 19354

原创 大数据Impala系列之初识Impala

一、impala 概述1、什么是Impala?Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C ++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。2、为什么选择Impala?使用Impala,与其他SQL引擎(如Hive)相比,用户可以使用SQL查询以更快的方式与HDFS或HBa...

2020-04-03 18:13:14 31270

原创 大数据Spark系列之Spark基本概念解析

1)Application用户在 spark 上构建的程序,包含了 driver 程序以及在集群上运行的程序代码,物理机器上涉及了 driver,master,worker 三个节点。2)Driver Program创建 sc ,定义 udf 函数,定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。3)Cluster Manager集群...

2020-04-03 17:41:43 19085

原创 大数据Spark系列之Spark单机环境搭建

1. 下载spark与scalaSpark下载地址http://mirrors.hust.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgzScala下载地址http://www.scala-lang.org/files/archive/scala-2.10.4.tgz2. 解压安装$ tar ...

2020-04-03 17:23:33 31203

原创 大数据Kafka系列之Kafka监听方式实现消费者

1. kafka监听接口MessageListener接口:使用MessageListener接口实现时,当消费者拉取消息之后,消费完成会自动提交offset,即enable.auto.commit为true时,适合使用此接口; AcknowledgingMessageListener接口:使用AcknowledgeMessageListener时,当消费者消费一条消息之后,不会自动提交o...

2020-04-02 15:50:29 23279

转载 Linux系列之Nginx安装

1. 下载nginx本次安装采用nginx-1.15.6版:http://nginx.org/download/nginx-1.15.6.tar.gz2. 安装依赖yum install -y pcre pcre-develyum install -y zlib zlib-develyum install -y openssl openssl-devel3. 解压安装包...

2018-11-26 21:58:35 81757

原创 Linux系统DB2数据库安装手册

1. 下载网址http://happyqing.iteye.com/blog/20823052. 安装DB22.1 下载解压安装包wget ftp://public.dhe.ibm.com/software/hk/cobra/db2exc_970_LNX_x86_64.tar.gzmkdir -p /home/db2tar -zxvf db2exc_970_LNX_x86_...

2018-11-22 15:52:04 83755

翻译 大数据Hadoop系列之Hadoop Web控制台添加身份验证

1. 背景介绍本文档介绍如何配置Hadoop HTTP Web控制台以要求用户身份验证。 默认情况下,Hadoop HTTP Web控制台(ResourceManager,NameNode,NodeManagers和DataNodes)允许访问而无需任何形式的身份验证。 可以将Hadoop HTTP Web控制台配置为使用HTTP SPNEGO协议(Firefox和Internet Exp...

2018-11-08 17:00:32 96022 7

转载 大数据Hive系列之Hive性能优化(全面)

一、介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优...

2018-11-07 12:08:46 423453

原创 大数据HBase系列之HBase基本操作

1.  hbase命令版本查看hbase version连接Zookeeper客户端hbase zkcli连接HBase客户端hbase shell2.  CRUD2.1  创建表-- 语法:create '表名','列族名'create 'student','info'2.2  显示所有表-- 语法:list 或 list '表名'lis...

2018-11-01 18:04:52 89034

原创 大数据Zookeeper系列之Zookeeper服务开机自启动配置

1.  编写运行脚本$ sudo cd /etc/init.d$ sudo vi zookeeper#!/bin/bash#chkconfig:2345 20 90#description:zookeeper#processname:zookeepersu - hadoop <<!case $1 instart)sh /opt/apache/zookeep...

2018-10-31 15:10:35 11373

转载 大数据Hadoop系列之Hadoop服务开机自启动配置

1.  编写运行脚本$ sudo cd /etc/init.d$ sudo vi hadoop#!/bin/bash#chkconfig:35 95 1#description:script to start/stop hadoopsu - hadoop <<!case $1 instart)sh /opt/apache/hadoop/hadoop-2.7....

2018-10-30 20:22:40 14436

原创 Zabbix监控系统(二):Zabbix管理之自动发现服务

1. 创建自动发现配置->自动发现->创建发现规则设置名称 配置IP范围 设置延迟时间 设置IP地址为唯一性准则 启用发现规则2. 创建动作配置->动作->创建动作2.1 设置执行动作基本信息设置名称 启用动作2.2 设置动作的执行条件配置动作执行条件 配置触发条件2.3 配置具体的执行动作将发现的主机添加至...

2018-10-25 15:25:08 12570

原创 Zabbix监控系统(一):初识Zabbix

一、Zabbix简介Zabbix 是由 Alexei Vladishev 开发的一种网络监视、管理系统,基于 Server-Client 架构。可用于监视各种网络服务、服务器和网络机器等状态。使用各种 Database-end 如 MySQL, PostgreSQL, SQLite, Oracle 或 IBM DB2 储存资料。Server 端基于 C语言、Web 管理端 frontend...

2018-10-23 13:28:30 14297

原创 MySQL JDBC

 一、连接MySQL数据库1.  MySQL JDBC四大参数private static String driver = "com.mysql.jdbc.Driver";private static String url = "jdbc:mysql://127.0.0.1:3306/local_test?characterEncoding=UTF-8&useSSL=false...

2018-09-19 19:32:27 429108 1

原创 大数据HBase系列之HBase分布式数据库部署

一、部署准备1. 依赖框架大数据Hadoop系列之Hadoop分布式集群部署:https://blog.csdn.net/volitationLong/article/details/80285123 大数据Zookeeper系列之Zookeeper集群部署:https://blog.csdn.net/volitationLong/article/details/827062102. ...

2018-09-17 15:09:01 442118

原创 大数据Zookeeper系列之Zookeeper分布式协调服务部署

一、部署准备1. 安装介质zookeeper-3.4.13:http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz2. 主机规划192.168.233.134 host14 192.168.233.133 host15192.168.233.136 host16二、...

2018-09-14 17:27:04 439125

转载 Java实现获取随机字符串

1.  代码块import java.util.Random;/** * 随机字符串工具 * * @author volitation * */public class RandomString { /** * 获取指定长度随机字符串 * * @param length * @return */ public static String getR...

2018-09-13 10:23:07 18177 1

转载 大数据Hive系列之Hive MapReduce

1.  JOIN1.1  join操作INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid); 1.2  MR过程Mapa.  以 JOIN ON 条件中的列作为 Key,如果有多个列,则 Key 是这些列的...

2018-09-11 16:32:56 18762

原创 Linux系列之离线安装Apache HTTP

1.  安装准备1.1  下载介质链接: https://pan.baidu.com/s/1R1iaKfHbeLUQuJcGn9kNrA 密码: iceg1.2  上传介质 scp -r /opt/tools/httpd 192.168.233.130:/opt/tools/httpd2.  安装HTTP2.1  编译安装aprcd /opt/tools/httpd...

2018-09-07 23:59:24 18903 2

原创 Cloudera Manager平台部署说明书

一、基础环境1. 修改主机名# vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=master1# vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=master2# vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME...

2018-09-06 14:53:41 447044

原创 大数据HBase系列之初识HBase

1.  HBase简介1.1  为什么使用HBase传统的RDBMS关系型数据库(MySQL/Oracle)存储一定量数据时进行数据检索没有问题,可当数据量上升到非常巨大规模的数据(TB/PB)级别时,传统的RDBMS已无法支撑,这时候就需要一种新型的数据库系统更好更快的处理这些数据。我们可以选择HBase。1.2  HBase的地位HBase占有举足轻重的作用,它居于HDFS之上...

2018-09-04 16:54:20 14145

转载 IDEA常用快捷键

快捷键 快捷键说明 Alt+回车  导入包,自动修正 Shift+Alt+R 修改文件名 Ctrl+N    查找类 Shift+Alt+T 打开类 Ctrl+Shift+N  查找文件 Ctrl+Alt+L   格式化代码 Ctrl+Alt+O  优化导入的类和包 Alt+Insert  生成代码(如get,s...

2018-08-30 16:04:40 433700

原创 Linux系列之挂载磁盘

1. 查看磁盘# fdisk -l2. 创建分区# fdisk /dev/sda命令 命令说明 n 创建 p 选择 1,2,3,4 分区号 w 保存      3. 格式化分区为ext4格式mkfs.ext4 /dev/sda4. 挂载磁盘mkdir -p /data/hdfsmount ...

2018-08-30 11:10:01 11079

转载 大数据Flume系列之Flume集群搭建

1. 概念集群的意思是多台机器,最少有2台机器,一台机器从数据源中获取数据,将数据传送到另一台机器上,然后输出。接下来就要实现Flume集群搭建。集群如下图所示。2. Flume搭建2.1 部署准备部署主机192.168.9.139 host14 192.168.9.128 host15 host14主机下载flume软件包 # cd /opt/t...

2018-08-29 17:35:48 442722

原创 大数据Hive系列之Hive API

Maven依赖配置<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/x...

2018-08-23 14:12:14 14507

原创 大数据Hive系列之Hive常用SQL

1. hive导出数据到hdfs语法:export table 表名 to '输出路径';例子:export table cloud.customer to '/tmp/hive/customer';2. beeline连接$ beeline语法:beeline> !connect jdbc:hive2://主机名:10000 用户名 密码例子:beeline&g...

2018-08-22 16:04:52 11899

原创 大数据Hive系列之Hive用户权限管理

1. 角色* 创建角色create role role_name;* 显示角色show roles;* 删除角色drop role role_name;2. 用户* 用户进入admin角色权限set hive.users.in.admin.role;set role admin;* 查看某用户的所有角色show role grant user user_n...

2018-08-21 17:30:40 31690 1

原创 Linux系列之SAR命令使用详解

1. CPU利用率sar -p (查看全天)sar -u 1 10 (1:每隔一秒,10:写入10次)1.1. CPU输出项说明 输出项 详细说明 CPU all 表示统计信息为所有 CPU 的平均值。 %user 显示在用户级别(application)运行使用 C...

2018-08-16 15:08:15 60617 4

翻译 通过ODBC连接PostgreSQL

一、ODBC安装1)UnixODBC安装* yum安装 # yum install -y unixODBC.x86_64* 验证安装 # rpm -qa | grep unixODBC unixODBC-2.3.1-11.el7.x86_642)PostgresqlODBC安装* yum安装 # yum install -y po...

2018-08-15 17:17:44 21078 2

原创 PostgreSQL入门简介

一、PostgreSQL数据库安装1)yum安装# yum install postgresql2)验证postgresql安装# rpm -qa | grep postgresqlpostgresql-9.2.23-3.el7_4.x86_64postgresql-libs-9.2.23-3.el7_4.x86_643)登录数据库* 登录postgre...

2018-08-14 16:36:01 11926

原创 大数据Sqoop系列之Sqoop导入导出数据

一、Sqoop介绍Sqoop是一个用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop工具接收到客户端的shell命令或者Java...

2018-06-14 18:01:14 15746 1

原创 大数据Kafka系列之Kafka集群部署

1. kafka集群搭建规划搭建主机​slave61 192.168.9.61slave62 192.168.9.62slave63 192.168.9.632. kafka安装包下载http://mirrors.hust.edu.cn/apache/kafka/1.0.0/kafka_2.12-1.0.0.tgz3. 创建工作目录,解压安装 cd /app...

2018-06-14 11:07:21 12209

大数据平台之用户行为分析平台

用户行为分析平台是基于大数据Hadoop生态构建的平台,本文档包括的内容如下: 1. 大数据基础知识介绍 2. Hadoop介绍 3. Hive介绍 4. Flume介绍 5. 用户行为分析平台介绍

2018-08-24

Apache Hadoop生态圈平台部署说明书

本文档包括的内容如下: 1. Hadoop 的安装与配置 2. Hive 的安装与配置 3. Flume 的安装与配置 4. Kettle 的安装与配置 5. Mysql 的安装与配置 6. Zookeeper 的安装与配置 7. Otter 的安装与配置

2018-08-24

Hadoop系列书籍五本

内含Hadoop系列之《Hadoop YARN 基本架构和发展趋势》、《Hadoop实战》、《Hadoop海量数据处理 技术详解与项目实战》、《Hadoop官网帮助手册》、《Hadoop源代码分析》五本书籍,你值得拥有。

2018-08-21

cxf-ws.zip

CXF与Spring搭建WebService是目前最流行的方式。 本资源讲述如何用Java创建一个简单的WebService接口,并构建客户端调用这个WebService接口。

2018-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除