自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 Hiveserver2服务宕机及解决

描述: 公司内部使用Hue作为数分团队对大数据的分析产出工具,随着数分业务增加和使用人员复杂,不规范SQL,不规范的使用,导致Hue连接Hive的Hiveserver2服务意外宕机,查看服务日志,并无明显报错,只能在CDH管理界面看出是OOM导致的意外退出,想着通过加大内存以及加上万能重启方式,然而并不能解决,服务运行一段时间后,仍然因OOM挂机,因日志没有详细错误信息,只能看到服务在退出时dump出了很大的堆快照文件(-XX:+HeapDumpOnOutOfMemoryError),分析快照文件相对较为.

2022-05-05 14:19:08 3567

原创 记录下windows本地开发运行Spark项目环境问题

最近在使用Spark结构化流开发实时流处理项目,原本之前可以在本地IDEA运行的项目突然报各种hadoop相关的错误: #错误描述,java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String; JJJI)Ljava/io/FileDescriptor可以看出是Windows本地环境问题导致IO异常,网上给出的解决方式是在系统文..

2021-09-02 11:55:36 307

原创 Hue导出xls,csv查询文件bug

错误描述HUE版本:CDH5.15原因:是生成的下载文件名中包含换行符,CDH在后续新版本已进行了修复,但囿于目前CDH下载资源收费,采用手动修改代码方式通过日志找到后台服务异常代码路径:/opt/cloudera/parcels/CDH/lib/hue/desktop/core/src/desktop/lib/export_csvxls.py修改如下: def make_response(generator, format, name, encoding=None): """..

2021-08-09 11:05:58 733

原创 Hive调优相关总结

写在前我们都知道Hive默认的执行引擎是MR,在没有对Hive执行引擎改造之前(如HDP的TEZ,Hive on Spark项目),我们对Hive的调优依然只能围绕Hive本身支持的如存储格式,压缩,参数,SQL语句等方面的优化做出考虑。存储与压缩关于Hive存储格式和压缩方式的选择和使用,这里就不再做介绍,请参考以前博客存储格式和压缩方式Hive 调优参数因为Hive的默认执行引擎为MR,所以基于Hive的参数调优,主要还是MR的参数调优以及Hive客户端的一些设置1.开启Hi

2020-08-11 11:39:56 67179

原创 Sqoop增量导入导出总结

Sqoop做为关系型数据库RDBMS和大数据平台(HDFS,Hive,Hbase等)导入导出工具,如果不熟悉其参数作用,使用起来各种问题,本文作为博主对Sqoop的实践作出一定的总结,如有错误,仅供参考。Sqoop JobSqoop job 的是给使用者提供一个封装sqoop job的功能,其作用是可以自动更新job 的meta信息,让增量导入时指定的last-value自动被更新记录,不用额外的使用其他手段记录信息。Sqoop job操作: 创建job sqoop job --c.

2020-05-21 11:50:26 82267 2

原创 MySQL知识点总结

一篇很全的MySQL知识点博客

2020-05-15 15:46:57 219

原创 阿里云服务器安装Azkaban邮件配置遇的坑

Azkaban发送邮件默认使用的是STMP 25端口,但是阿里云服务器25端口是被禁用的,所以需要将25端口换到465端口 采用smtps协议传输邮件(25端口是非SSl协议传输),方法是修改源码,具体如下:git clone 下载Azkaban源码到服务器: [root@boyi_bi azkaban]# git clone https://github.com/azkaban/a...

2019-10-29 13:41:43 1599

原创 Azkaban从编译到安装

前言本文以Azkaban官网为参照,解读如何正确编译安装Azkaban,如有错误之处,请不吝指出。编译前准备Azkaban介绍:Azkaban官网开篇介绍,Azkaban is a distributed Workflow Manager, implemented at LinkedIn to solve the problem of Hadoop job dependencies....

2019-10-24 15:54:21 569

原创 tcpdump与wireshark组合拦截分析端口数据

tcpdump简介用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动,普通情况下,直接...

2019-08-07 17:00:23 682

原创 Spark DataFrame 写入MySQL性能调优

最近在做公司运营报表时需要将百万数据一次性写入MySQL简单指定必须参数url,user,password,driver(也为必须参数,如果不指定会报错),dbtable后,发现写入数据时非常的慢,甚至只写入一部分后直接报错,为解决此问题,在网上搜索可以做以下调优spark jdbc参数介绍:在spark官网spark sql jdbc部分提供了以下参数: url:要连接的JDBC...

2019-07-29 14:18:39 85984 4

原创 Scala之偏函数Partial Function

从使用case语句构造匿名函数谈起在Scala里,我们可以使用case语句来创建一个匿名函数(函数字面量),这有别于一般的匿名函数创建方法。来看个例子:scala> List(1,2,3) map {case i:Int=>i+1} res1: List[Int] = List(2, 3, 4)这很有趣,case i:Int=>i+1构建的匿名函数等同于(i:Int)=...

2019-07-17 11:40:00 227

转载 IDEA和Maven打jar包方式

此篇博客对使用IDEA+Maven将Java项目打成Jar 包的方式介绍很全,有这方面问题的小伙伴可以看看。

2019-03-22 13:59:23 829

转载 Visual Studio Code (vscode) 配置C、C++环境/编译并运行

总体流程:下载安装vscode 安装cpptools插件 安装编译、调试环境 修改vscode调试配置文件 下载安装vscode https://code.visualstudio.com/Download 安装cpptools插件 打开vscode,按ctrl+p打开快速命令框,输入以下命令后等待ext install cpptoolsvscode在短暂的联网查找...

2018-08-25 14:11:29 63988 17

原创 Flume常用配置参数

概述本篇文章是根据Flume官网对Flume组件(Source,Channel,Sink)的常用配置参数做一个主要介绍,如有表达意思错误希望不吝指出。SourcesFlume中常用的Source有NetCat,Avro,Exec,Spooling Directory,Taildir,也可以根据业务场景的需要自定义Source,具体介绍如下。NetCat Source...

2018-08-08 19:32:36 9067 4

原创 Flume的进阶介绍和使用(Interceptor,Selectors,Processors)

Flume的引入关于Flume的介绍和使用,官网已经给了比较详细的介绍。本文在这里做一个总结。Flume是Apache下的一个开源的顶级项目,它是一个分布式,可扩展,高可用,高可靠的,轻量级数据收集框架,主要用来做数据的收集,聚合,和传输,相对与传统的数据导入导出框架Sqoop,它具备多方面优势,如,简单易用,Flume只需要一个简单的配置文件即可启动;功能全面,Flume在Source,...

2018-08-07 17:09:07 2586

原创 图形数据库Neo4j的简单入门

概述传统的关系型数据库(RDBMS)如 MySQL,Oracle 因其存储引擎和事务的高一致性特性很难在高并发的情况下实现高吞吐和可扩展,因而产生了很多的NoSQL 数据库如 Redis,MongoDB,Hbase等,图形化数据库(GDBMS) Neo4j因其是把数据以图的形式存储在网络而不是磁盘,所以读写性能较好。优势在创建节点的时候就已经把关系给建立起来,避免了在复杂查询场景...

2018-07-29 13:58:57 1276 1

转载 SQL 优化方案

在sql查询中为了提高查询效率,我们常常会采取一些措施对查询语句进行sql优化,下面总结的一些方法,有需要的可以参考参考。1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t wher...

2018-07-20 19:29:57 219

原创 记录一次Yum下载InfluxDB Error: Cannot retrieve repository metadata (repomd.xml) for repository: xxxxx

可以直接rpm安装 到http://repos.influxdata.com下载相应的版本#wget https://repos.influxdata.com/rhel/6Server/x86_64/stable/influxdb-1.2.0.x86_64.rpm#rpm -ivh influxdb-1.2.0.x86_64.rpm作者使用此种方式下载时会报错:OpenSSL: ...

2018-07-18 14:23:23 884

原创 Spark Core 之监控和调优

Spark 程序监控当我们通过Spark-shell启动一个Spark应用程序时,可以通过对应的端口查看该应用程序的UI界面信息,但是当我们Stop掉或者使用Spark-submit提交应用程序之后,我们无法再通过UI界面查看到对于的程序信息,那么之前的一些应用程序中间的运行状况就无法查看和被记录,不过好在Spark为我们提供了一个Spark history server ,这方便我们可以在...

2018-07-14 13:08:19 463

原创 Spark Core 的核心使用

Spark 程序核心概念 * 首先,官网的这张图很好的描述了一个Spark 应用程序的结构,一个Spark应用程序由一个Driver端和多个Executor组成,多个task 以多线程的形式运行在Executor中。 * Driver端: Driver负责运行程序的main()方法,负责将代码发送到各个Executor去执行,然后取回结果,Driver端也是以Executor方式运行,可以...

2018-07-14 11:19:51 1270

原创 Spark core 核心知识之再聊RDD

前言本文主要是记录在学习spark core 中的一些核心概念以及用法,对spark core 中的东西做出自己的总结。文章中可能会有一些错误,但鉴于是作者结合官网做出总结,仅做参考,涉及到不对以及不清楚的地方还请谅解。spark 的学习,我们可以参照官网spark 官网,spark的官网可以说是写的比较好的了,涉及到的知识还是非常全面的,通过官网,我们可以进行简单的案例使用,以及在概念上...

2018-07-13 22:16:01 283

原创 SparkSQL 基本使用

简介SparkSQL可以直接使用SQL的方式处理结构化数据,也可以通过DataFrame(spark1.3)和Dataset(spark1.6) API 使用编程的方式处理结构化数据,本文只介绍以DataFrame API的方式编程,至于DataFrame 和Daraset有何不同,我们暂时将二者先理解为一个概念,DataFrame API支持多种编程语言,如Java,Scala,Pytho...

2018-06-08 17:14:10 1248

原创 Spark SQL介绍

简介SparkSQL is not about SQL,Spark SQL is about more than SQL:这俩说明了SparkSQL不仅仅只是一个SQL的功能,它的功能远超于它的字面意思。官方介绍:Spark SQL是Spark处理数据的一个模块,跟基本的Spark RDD的API不同,Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。其本质...

2018-06-07 11:59:31 1328

原创 Kafka 常用命令

kafka常用命令一般是关于kafka topic的一些操作,比如create, delete, list, describe等一些操作进入$KAFKA_HOME/bin目录下可以看到kafka-topics.sh这个命令,通过- -help 查看该命名帮助1. [root@hadoop001 kafka_2.11-0.10.0.1]# kafka-topics.sh --help2. ...

2018-06-05 18:28:26 550

原创 Kafka安装部署

介绍Kafka 作为一个消息中间框架,负责在业务高峰时期降低流式处理的压力,也对相应的业务数据进行短期的高容错保存,现在已然成为一个成熟的分布式流式消息处理平台。部署Zookeeperkafka的使用需要协调服务zookeeper的支持,并将kafka的元数据储存在zookeeper中。下载,解压需要的zookeeper版本 1. [root@hadoop0...

2018-06-05 17:36:29 239

原创 日志信息收集框架--FLUME基本使用

FLUME的产生背景对于关系型数据库和HDFS,Hive,等的数据,我们可以使用sqoop将数据进行导入导出操作,但对于一些日志信息(源端)的定时收集,这种方式显然不能给予满足,这时有人会想到使用shell脚本的定时作业调度将日志收集出来,但是这种方式在处理大的数据和可靠性方面也显现出很多缺点,再比如日志信息的存储与压缩格式,任务的监控,这些显然也不能满足。基于以上,FLUME这个分布式,...

2018-06-02 22:16:20 897

原创 Spark常用三种运行模式

概述Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍前三种模式。Spark-shell 参数Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shel...

2018-05-23 22:37:11 23788 2

原创 RDD

RDD概念RDD源码中的描述: A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel. This class c...

2018-05-18 22:43:46 757

原创 使用Spark的优势

传统MapReduce编程局限性一个新的框架的诞生,必然是先前的框架无法满足现有的需求和提高生产力,那么相对于spark,传统的mapreduce 编程有哪些局限性呢:1.繁杂:MapReduce 中,只提供了俩种算子:Map和Reduce,那么基于这俩种算子面对不同的需求场景必然会使编程变得很繁杂。2.效率低下:1)进程级别低; 2) 基于磁盘,在迭代计算时,数据和网络的频繁IO; 3...

2018-05-13 20:26:39 1630

原创 存储格式在Hive的应用

介绍存储按存储方式的不同可分为两类,一是行式存储,二是列式存储,对相同的原文件使用不同的存储格式可以减少不等的存储空间,并且在读取相同的原文件时,拉取的数据量会有较大差别,这样会减少磁盘的IO,从而缩短任务消耗的时间。存储一般会配合压缩一起使用,这样可以进一步减少存储空间和磁盘IO。行式存储: 优点,一行记录的所有字段可以存储在同一个block中,这样在查询所有字段信息时可以直接获取。 ...

2018-03-13 22:36:48 369

原创 压缩在Hadoop中的应用

概述压缩:压缩是一种通过特定的算法来减小计算机文件大小的机制,简单来说就是使用相关压缩技术将文件内容减少的过程优点: 1.节省存储空间 2.减少网络带宽IO 3.减少磁盘IO缺点: 1.压缩解压会有CPU开销 2.消耗时间分类: 1.Lossless 无损压缩,应用在一些日志文件等 2.Lossy 有损压缩,应用在图片,视频文件等常用的压缩技术及比较:...

2018-03-12 22:57:42 435

原创 Hadoop HA 部署

Hadoop 集群本次学习我们使用3台Linux虚拟机,每台虚拟机环境如下: 配置集群SSH互信配置集群互信,可以让集群机器无密码互相访问执行命令ssh-keygen3台集群机器分别执行ssh-keygen命令,生成当前用户下的.ssh文件,文件包括私钥id_rsa和公钥id_rsa.pub1. [root@hadoop001 ~]# ssh-keygen ...

2018-03-09 22:45:10 372

原创 Spark 源码编译

选择Spark源码官网:spark.apache.org目的:从官网下载源码进行编译比下载的安装包要完整,并且可以定向编译出匹配自己Hadoop及其他组件的Spark版本环境准备JDK: Spark 2.2.0及以上版本只支持JDK1.8Maven: maven3.3.9; 设置maven环境变量时,需设置maven内存: export MAVEN_OPTS=”-Xmx...

2018-03-08 20:18:36 298

原创 Hadoop HA(高可靠)架构原理

使用Zookeeper概念: Zookeeper是一个服务是框架,进行对像hadoop 这样程序的协调服务。Hadoop 中HDFS和Yarn 都存在单点故障,尽管在HDFS中还有SNN进行元数据备份,但每隔60m 一次的checkpoint并不能实现HDFS高容错性的特点,所以使用Zookeeper可以协调Hadoop,以选举的形式实现数据备份,避免单点故障。*条件: ZK部署节...

2018-03-06 22:02:16 2828

原创 hive的Reduce join与Map join

说明hive 中的join可分为俩类,一种是common join(也叫Reduce join或shuffle join),另一种是 map join,后者是对hive join的一个优化,利用本地的task对较小的表hash生产一个hashtable文件,然后直接和map出来另一个表进行匹配,最终完成join\set hive.auto.convert.join = false 在0.7...

2018-02-01 22:42:24 2845

原创 sqoop 部署安装

1. 下载,上传,解压下载下载的sqoop版本要与环境的hadoop版本相匹配,本文使用的版本是: sqoop-1.4.6-cdh5.7.1.tar.gz上传[hadoop@wjxhadoop001 software]$ rz ##可以使用wget解压 1. [hadoop@wjxhadoop001 software]$ tar -xzvf s...

2018-02-01 21:48:46 287

原创 HiveServer2 JDBC客户端连接Hive数据库

1. 介绍:两者都允许远程客户端使用多种编程语言,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,两者都允许远程客户端使用多种编程语言如java,python等向hive提交请求,取回结果(从hive0.15起就不再支持hiveserver了),但是在这里我们还是要说一下hiveserverHiveServer或者HiveSe...

2018-02-01 21:24:41 1011

原创 hive导入导出(import/export)

1. 概括Hive 0.8.0 之后引入了EXPORT and IMPORT 命令。EXPORT命令将表或分区的数据连同元数据一起导出到指定的输出位置(HDFS上)。然后可以将此输出位置移至不同的Hadoop或Hive实例,并使用IMPORT命令进行导入操作。导出分区表时,原始数据可能位于不同的HDFS位置。还支持导出/导入分区子集的功能。导出的元数据存储在目标目录中,数据文件存储在...

2018-01-29 22:14:50 1558

原创 Hive字符集问题

创建表失败hive创建表失败,报错 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don’t support retries at t...

2018-01-28 22:42:56 2605

原创 Hive实现wordcount统计

1. 创建一个数据库 1. hive> create database wordcount; 2. OK 3. Time taken: 0.389 seconds 4. hive> show databases; 5. OK 6. default 7. wordcount...

2018-01-28 22:18:00 1487 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除