自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 大数据人的好帮手StreamX

Flink 流批一体利器,大数据开发平台,大数据开源项目!

2022-04-11 11:14:28 2457

原创 2021-11-12

Flink yarn-application怪异显示: run-application -t yarn-application insert-into_default_catalog.default_database.XXXID:00000000000000000000000000000000Flink yarn-application模式 JobId很怪异ID:00000000000000000000000000000000问题分析小记搞技术难,坚持把一件事做好难,能坚持写文章记录踩坑生活更是难上加

2021-11-12 15:03:05 1768

原创 awk打印第n个参数到最后一个技巧/将n行组成一列

打印第n参数到最后一个参数文本的NF不等,即字段长度不固定,想截取从3到3到3到NF第一反应是使用循环[root@localhost ~]# echo “1 2 3 4 5” | awk ‘{for(i=1;i<3;i++)$i="";print}’3 4 5但其实可以使用CU帽神给的技巧[root@localhost ~]#echo “1 2 3 4 5” | awk ‘{$1=$2="";print}’3 4 5如果分隔符比较标准的话(即使用的是统一的标准分隔符),建议还是用cut

2020-12-03 14:56:36 2216

原创 HBase Shell命令大全

一:简介HBase的名字的来源于Hadoop database,即hadoop数据库,不同于一般的关系数据库,它是非结构化数据存储的数据库,而且它是基于列的而不是基于行的模式。HBase是一个分布式的、面向列的、基于Google Bigtable的开源实现。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。二:HBase重要概念HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划

2020-09-02 20:13:43 651

原创 Hive最常用近百个函数详解

背景Apache Hive是一个建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析,现支持引擎有MapReduce、Tez、Spark等等。Hive像传统的关系型数据库一样含有大量内置函数,但也可支持UDF、UDAF等用户自定义函数编写。Hive自身支持函数的隐式转换,方便用户使用。但是这些隐式转换出现问题可能不会报错,但是也会给用户带来非期望的结果。建议大家函数按照规范来使用。内置函数现在分门别类地整理了日期、数值、集合、条件、字符串、聚合等内置函数的详解与举例说明等

2020-07-31 19:25:41 1555

原创 MySQL应用之CROSS JOIN用法(有时挺管用)

目录cross join简介cross join用法本博客翻译自两篇博客的:http://www.mysqltutorial.org/mysql-cross-join/https://www.w3resource.com/mysql/advance-query-in-mysql/mysql-cross-join.phpcross join简介MySQL cross join是mysql中的一种连接方式,区别于内连接和外连接,对于cross join连接来说,其实使用的就是笛卡尔连接。在M

2020-07-24 11:19:50 2219

原创 (提升克隆速度)git clone项目文件时报错解决remote: Enumerating objects: 19

有效提升下载速度 百分之很多。。。。。。。。。。。。操作:git clone https://github.com/…1报错:remote: Enumerating objects: 19, done.remote: Counting objects: 100% (19/19), done.remote: Compressing objects: 100% (19/19), done.error: RPC failed; curl 56 GnuTLS recv error (-54): E

2020-05-22 10:10:01 6973 2

原创 Flink1.10新特性探究之Hive整合以及实时数据处理实例(上)

最近工作比较忙,一直想写一篇Flink1.10.0与Hive的整合博文,上周末进行的整合探究,现将心得和实践实例呈上,希望给正在探索的小伙伴提供一些帮助,顺带将Flink新特性在数据实时处理上的心得一并呈上,口水话不多说了,咱们直接开干!!!!!!!!!==============》文章目录开发环境版本说明开发环境版本说明...

2020-05-19 22:29:26 1238 11

原创 Flink on yarn 启动报错:缺jar包(Error: A JNI error has occurred, please check your installation and try ag)

很久以前遇到的问题,突然回顾了,今天做下总结,供大家参考===============》启动yarn模式具体报错如下: bin]$ ./yarn-session.sh -n 2 -s 2 -jm 1024 -tm 1024 -nm test -dError: A JNI error has occurred, please check your installation and try ag...

2020-04-29 19:33:19 2468 1

原创 flume采集数据采集与kafaka交互报错:java.lang.OutOfMemoryError:java heap space

详细报错如下图:##解决办法:进入flume bin目录下,修改flume-ng文件,如下图:红框的地方默认是20m,可以根据自己服务器内存大小设置,我这里设置的是10240m(也就是10个g)根据以上的报错,自己也进行搜索并整理了细节的东西,供需要的小伙伴们参考:博文地址:记flume部署过程中遇到的问题以及解决方法配置flume采集kafaka日志导入hdfs(采用的file...

2020-04-07 14:34:06 1247

原创 flume输送数据到kafka报错(异机通信+Kafak本身配置问题)

1.对于配置文件,flume conf文件完全没有问题:这里就不做粘贴了 (file-flume-kafka.conf)2.检查flume日志文件,报错如下:2019-05-17 09:38:27,185 (lifecycleSupervisor-1-1) [INFO - org.apache.flume.instrumentation.MonitoredCounterGroup.star...

2020-04-04 21:04:24 1824

原创 ELK下之Logstash性能调优(从千/秒=>万/秒=>10万/秒)

介绍Logstash 是一款强大的数据处理工具,它可以实现数据传输,格式处理,格式化输出,还有强大的插件功能,常用于日志处理。Logstash优化Logstash建议在修改配置项以提高性能的时候,每次只修改一个配置项并观察其性能和资源消耗(cpu、io、内存)。性能检查项包括:1、检查input和output设备1)、CPU2)、Memory3)、io1、磁盘io2、网络io2...

2020-03-31 21:59:18 17841 5

原创 记以ELK结合的Web日志数据采集心得整理

最近搭建一套日志监控平台,结合系统本身的特性总结一句话也就是:需要将Kafka中的数据导入到elasticsearch中。那么如何将Kafka中的数据导入到elasticsearch中去呢,总结起来大概有如下几种方式:Kafka->logstash->elasticsearch->kibana(简单,只需启动一个代理程序)Kafka->kafka-connect-ela...

2020-03-31 21:36:46 540

原创 数据库查询结果去重常用方法整理

一般情况下,数据库去重复有以下那么三种方法:第一种:两条记录或者多条记录的每一个字段值完全相同,这种情况去重复最简单,用关键字distinct就可以去掉。例:SELECT DISTINCT * FROM TABLE使用 distinct:使用distinct去重,只能去掉重复记录,有些场景也并不是很适用,分场景而异第二种:两条记录之间之后只有部分字段的值是有重复的,但是表存在主键或...

2020-03-11 20:21:34 8742 1

原创 mysql中的where和having子句的区别(有时易与Hive中的开窗函数混淆)

下面以一个例子来具体的讲解:where和having都可以使用的场景1)select addtime,name from dw_users where addtime> 15000000002)select addtime,name from dw_users having addtime> 1500000000解释:上面的having可以用的前提是我已经筛选出了ad...

2020-02-27 11:42:52 553

原创 通过工具sqoop导入hive数据时对换行等特殊字符处理

使用场景:公司大数据平台ETL操作中,在使用sqoop将mysql中的数据抽取到hive中时,由于mysql库中默写字段中会有换行符,导致数据存入hive后,条数增多(每个换行符会多出带有null值得一条数据),导致统计数据不准确。解决办法:利用一下两个参数可以实现对换行等特殊字符的替换或者删除--hive-delims-replacement--hive-drop-import-del...

2020-02-26 14:19:49 977

原创 hive:导出数据记录到MySQL中null被替换为\N的解决方案

在hive中,一般情况下通过1 use my_hive_db;2 set hive.merge.mapfiles=true;3 set hive.merge.mapredfiles=true;4 set hive.merge.size.per.task= 1000000000;5 set hive.merge.smallfiles.avgsize= 1000000000;6 inser...

2020-02-26 14:15:40 2032

原创 MySQL Binlog同步HDFS的方案

这个问题我想只要是在做数据开发的,有一定数据实时性要求、需要做数据的增量同步的公司都会遇到。19年的时候我曾经写过一点canal的文章。现在你只要看这个文章就可以了。这篇文章是一个读者推荐给我的,原地址:https://dwz.cn/XYdYpNiI,作者:混绅士我对其中的一些内容做了修改。关系型数据库和Hadoop生态的沟通越来越密集,时效要求也越来越高。本篇就来调研下实时抓取MySQ...

2020-02-15 19:59:25 1398

原创 ELK之Logstash(将mysql数据同步到ES6.6.0(全量+增量))

下载安装包时注意下载到指定文件夹 这里我放在OPT文件夹下一:安装logstash进入到opt文件夹打开终端 执行以下命令wget -c https://artifacts.elastic.co/downloads/logstash/logstash-6.6.0.zip加上-c支持断点续传二:解压logstashunzip logstash-6.6.0.zip三:进入到logstas...

2020-01-20 10:26:24 964

原创 mysql之浅谈主外键

主键在一个数据表中只能有唯一的一个,约束当前字段的值不能重复,且非空保证数据的完整性,也可以当做当前数据表的标识符用来查询(当做索引,唯一性索引的一种)创建带主键的表/*带主键*/CREATE TABLE T( id int(11) not null primary key, name char(20) ); /*带复合主键*/CREATE TABLE T...

2019-12-19 10:01:06 138

原创 Spark Streaming offset的管理那些事!

Spark Streaming offset的管理那些事!1.Kafka 消息的管理办法(1) topictopic中包含多个分区,建议分区是Kafka broker的整数倍,或者是磁盘的整数倍分区数是Kafka存储的主要概念,key的Hash&numPartition,在分区里存储的时候,offset-msg消费者 消费消息 首先会自己确定offset的范围,然后使用该范围去k...

2019-12-05 22:49:14 335

原创 运行Spark SQL报The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.

想启动spark-sql,结果报了Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH. Pleas...

2019-12-03 14:38:08 518

原创 运行hbase报错(因为配置了Phoenix后)

运行HBase应用开发程序产生异常,提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesException in thread "main...

2019-11-13 17:28:29 805

原创 手机号、身份证号类似脱敏处理(ETL)

先上代码:========》 //测试消费 /* inputDstream.map(_.value()).foreachRDD(rdd => println(rdd.collect().mkString("\n")) )*/ val orderInfoDstrearm: DStream[OrderInfo] = inputDstream.map {...

2019-11-08 15:05:37 1827

原创 IDEA编写Scala代码时自动显示变量类型

IDEA作为最智能的编辑器,功能真的是强大无比,在编写Scala程序时,如果显示变量类型,编写程序时会方便的多。下面就介绍如何在idea上设置显示Scala变量类型。问题如果你在编写的Scala程序的时候,不知道变量的数据类型,有可能会给你到来一下不便,如果显示变量类型,不仅知道自己编写的代码是不是有问题,或者知道自己应该如何使用变量。如果你没有设置显示类型,比如下面的数组,就不知道这个数组中...

2019-11-08 11:36:49 5121 5

原创 Canal 问题排查(不抓取数据)

问题一:ERROR c.a.otter.canal.parse.inbound.mysql.MysqlEventParser - dump address /192.168.1.50:3306 has an error, retrying. caused bycom.alibaba.otter.canal.parse.exception.CanalParseException: can’t f...

2019-11-07 14:56:20 4751

原创 Class org.openx.data.jsonserde.JsonSerDe not found (json数据聚合运算时无法识别)

首先建立基础表的时候:对于数仓中:ods层========》ods层:drop table if exists ods_startup_log;create external table ods_startup_log ( `mid` string COMMENT '设备唯一标识', `uid` string COMMENT '用户标识', `os` string COM...

2019-09-24 16:14:16 2538

原创 solr cloud模式踩坑之路(Atlas)

**主要解决两个Bug(bug糊里糊涂产生的===========> 创建索引核心失误后的教训!!!)**1.bug的由来:目的:部署Atlas2.0创建集合 --》索引建立创建命令: $SOLR_BIN/solr create -c vertex_index -d SOLR_CONF -shards #numShards -replicationFactor #replicati...

2019-09-11 22:38:23 1550

原创 atlas修改源码 配置免密登录

免密测试地址:http://hadoop102:21000/index.html#!/detailPage/48c21a12-018a-41f9-a5cb-be82a388db7d修改spring security 替换 jar包 地址:/opt/module/atlas/distro/target/apache-atlas-0.8.4-bin/apache-atlas-0.8....

2019-08-28 09:31:20 507 4

原创 踩坑之路之(ssh执行程序时 环境变量丢失)

以下是脚本启动后报错情况:====================》》》》》例子:程序启动脚本#!/bin/bashJAVA_BIN=/bigdata/jdk1.8.0_152/bin/javaPROJECT=gmall0823APPNAME=dw-logger-0.0.1-SNAPSHOT.jarSERVER_PORT=8080 case $1 in "start") ...

2019-08-28 09:27:09 744

原创 /etc/profile与/etc/bashrc的几点记录

/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件...

2019-08-23 11:34:00 214

原创 CDH环境下安装Tez(Hive on Tez )

参考地址:https://www.jianshu.com/p/3c9f1963ac02CDH环境下安装Tez一、安装环境1、Linux版本: CentOS 6.52、Hadoop版本:CDH5.8.03、Hive版本:Hive-1.1.0-cdh5.8.04、JDK版本:JDK1.85、Maven版本:apache-maven-3.5.4 (必须安装Maven)二、安装前准备1、...

2019-08-19 14:55:57 1008

原创 HBase启动RegionServer自动关闭

HBase启动RegionServer自动关闭HBase 1.2.8,采用伪分布式部署,zookeeper使用HBase自带启动后 HMaster 、 HQuorumPeer、HRegionServer 三个进程都启动了。过几秒钟后,再看,HRegionServer 消失了查看log。已经搞定了。自己回复一下,方便后来的同学遇到此类问题时。通过hbase hbck 进行检查执行...

2019-08-15 23:12:29 1889

原创 HBase:HMaster启动后自动关闭

好久没有来写博客了,总算是忙完了,今天回到阔别已久的CU。一早来到单位,就开始着手调试新测试镜像。但是一启动就出了问题,原先调试好的分布式平台却提示了错误:Zookeeper available but no active master location found直观的感觉是HMaster的问题,果然,JPS查看发现没有了HMaster进程,进入到hbase-master日志中查看,发现了以...

2019-08-15 21:33:55 2024

原创 CDH 5.1.5(parcels)集群中hive1.1.0升级到hive-1.2.1步骤全,升级hive元数据库,数据不丢失(亲测可用)

1.下载hive-1.2.1安装包 http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz2.将安装包传到集群所有节点上3.所有节点root用户下cd /opt/cloudera/parcels/CDH/lib/hivemkdir lib1214.所有节点解压 apache-hive-1.2...

2019-08-14 14:55:55 917 8

原创 解决hive建表报错 character ' ' not supported here

好好的建个表hive都给我报错,疯狂一顿baidu、google。解决用有道云markdown打开(需要下载有道云笔记,没有自行官网下载),发现前面多了若干点,如红框里面标红的。只需要删除这些点即可前面,后面多的小点点都去掉。![在这里插入图片描述](https://img-blog.csdnimg.cn/20190801231922280.png?x-oss-process=ima...

2019-08-01 23:23:19 1417

原创 kettle使用mysql作为资源库报错 创建资源库时只有25张表,原本应该46张表。

kettle使用mysql作为资源库报错 创建资源库时只有25张表,原本应该46张表。连用户表都没有 ,导致连 默认的 admin和guest都无法登陆自己的资源库!!!!问题是 SQL语句里边使用 ‘Y’ ‘N’ 给boolean类型的赋值产生sql失败话不多说,直接将一下的sql语句在mysql 或者mariadb中 建立的资源库中执行,便可解决!!!我用的mysql版本是...

2019-07-10 10:58:12 1311 1

原创 spark-shell报错:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSData

CDH spark-shell 报错:spark-shell报错:Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream环境:openSUSE42.2spark1.6.0-cdh5.15.1Hadoop 2.6.0-cdh5.15.1按照网上的...

2019-07-10 10:27:18 3435 1

原创 CDH集群异常关闭导致zookeeper启动失败

集群异常关闭后,有个zookeeper节点始终无法启动,CM上的日志没有明显的报错解决思路:1.尝试通过命令行启动zkServer.sh start,查看zookeeper.out,发现报如下错误Unexpected exception, exiting abnormallyjava.io.EOFException at java.io.DataInputStream.r...

2019-07-09 17:08:07 2918 4

原创 往hive中导入文件后查看出现中文乱码

往hive中导入.txt或者.csv文件,导入没有报错,导入后通过查询界面发现,中文字段出现乱码的情况。因为Hive默认是所有文件都是UTF-8的(utf-8本身支持中文没有问题的。hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是一般我们导入的文件都是在windows下编辑的,而windows默认的中文文本输出编码格式为GBK.)Hive将按照UTF8编码格式对...

2019-07-04 14:18:36 2583

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除