宝宝不哭^_^-CSDN博客

原创大数据人的好帮手StreamX

Flink 流批一体利器，大数据开发平台，大数据开源项目！

2022-04-11 11:14:28 2457

Flink yarn-application怪异显示： run-application -t yarn-application insert-into_default_catalog.default_database.XXXID:00000000000000000000000000000000Flink yarn-application模式 JobId很怪异ID:00000000000000000000000000000000问题分析小记搞技术难，坚持把一件事做好难，能坚持写文章记录踩坑生活更是难上加

2021-11-12 15:03:05 1768

原创 awk打印第n个参数到最后一个技巧/将n行组成一列

打印第n参数到最后一个参数文本的NF不等，即字段长度不固定，想截取从3到3到3到NF第一反应是使用循环[root@localhost ~]# echo “1 2 3 4 5” | awk ‘{for(i=1;i<3;i++)$i="";print}’3 4 5但其实可以使用CU帽神给的技巧[root@localhost ~]#echo “1 2 3 4 5” | awk ‘{$1=$2="";print}’3 4 5如果分隔符比较标准的话(即使用的是统一的标准分隔符)，建议还是用cut

2020-12-03 14:56:36 2216

原创 HBase Shell命令大全

一：简介HBase的名字的来源于Hadoop database，即hadoop数据库，不同于一般的关系数据库，它是非结构化数据存储的数据库，而且它是基于列的而不是基于行的模式。HBase是一个分布式的、面向列的、基于Google Bigtable的开源实现。利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。二：HBase重要概念HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划

2020-09-02 20:13:43 651

原创 Hive最常用近百个函数详解

背景Apache Hive是一个建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析，现支持引擎有MapReduce、Tez、Spark等等。Hive像传统的关系型数据库一样含有大量内置函数，但也可支持UDF、UDAF等用户自定义函数编写。Hive自身支持函数的隐式转换，方便用户使用。但是这些隐式转换出现问题可能不会报错，但是也会给用户带来非期望的结果。建议大家函数按照规范来使用。内置函数现在分门别类地整理了日期、数值、集合、条件、字符串、聚合等内置函数的详解与举例说明等

2020-07-31 19:25:41 1555

原创 MySQL应用之CROSS JOIN用法（有时挺管用）

目录cross join简介cross join用法本博客翻译自两篇博客的：http://www.mysqltutorial.org/mysql-cross-join/https://www.w3resource.com/mysql/advance-query-in-mysql/mysql-cross-join.phpcross join简介MySQL cross join是mysql中的一种连接方式，区别于内连接和外连接，对于cross join连接来说，其实使用的就是笛卡尔连接。在M

2020-07-24 11:19:50 2219

原创（提升克隆速度）git clone项目文件时报错解决remote: Enumerating objects: 19

有效提升下载速度百分之很多。。。。。。。。。。。。操作：git clone https://github.com/…1报错：remote: Enumerating objects: 19, done.remote: Counting objects: 100% (19/19), done.remote: Compressing objects: 100% (19/19), done.error: RPC failed; curl 56 GnuTLS recv error (-54): E

2020-05-22 10:10:01 6973 2

原创 Flink1.10新特性探究之Hive整合以及实时数据处理实例（上）

最近工作比较忙，一直想写一篇Flink1.10.0与Hive的整合博文，上周末进行的整合探究，现将心得和实践实例呈上，希望给正在探索的小伙伴提供一些帮助，顺带将Flink新特性在数据实时处理上的心得一并呈上，口水话不多说了，咱们直接开干！！！！！！！！！==============》文章目录开发环境版本说明开发环境版本说明...

2020-05-19 22:29:26 1238 11

原创 Flink on yarn 启动报错：缺jar包（Error: A JNI error has occurred, please check your installation and try ag）

很久以前遇到的问题，突然回顾了，今天做下总结，供大家参考===============》启动yarn模式具体报错如下： bin]$ ./yarn-session.sh -n 2 -s 2 -jm 1024 -tm 1024 -nm test -dError: A JNI error has occurred, please check your installation and try ag...

2020-04-29 19:33:19 2468 1

原创 flume采集数据采集与kafaka交互报错：java.lang.OutOfMemoryError:java heap space

详细报错如下图：##解决办法：进入flume bin目录下，修改flume-ng文件，如下图：红框的地方默认是20m，可以根据自己服务器内存大小设置，我这里设置的是10240m(也就是10个g)根据以上的报错，自己也进行搜索并整理了细节的东西，供需要的小伙伴们参考：博文地址：记flume部署过程中遇到的问题以及解决方法配置flume采集kafaka日志导入hdfs（采用的file...

2020-04-07 14:34:06 1247

原创 flume输送数据到kafka报错（异机通信+Kafak本身配置问题）

1.对于配置文件，flume conf文件完全没有问题：这里就不做粘贴了（file-flume-kafka.conf）2.检查flume日志文件，报错如下：2019-05-17 09:38:27,185 (lifecycleSupervisor-1-1) [INFO - org.apache.flume.instrumentation.MonitoredCounterGroup.star...

2020-04-04 21:04:24 1824

原创 ELK下之Logstash性能调优（从千/秒=>万/秒=>10万/秒）

介绍Logstash 是一款强大的数据处理工具，它可以实现数据传输，格式处理，格式化输出，还有强大的插件功能，常用于日志处理。Logstash优化Logstash建议在修改配置项以提高性能的时候，每次只修改一个配置项并观察其性能和资源消耗（cpu、io、内存）。性能检查项包括：1、检查input和output设备1）、CPU2）、Memory3）、io1、磁盘io2、网络io2...

2020-03-31 21:59:18 17841 5

原创记以ELK结合的Web日志数据采集心得整理

最近搭建一套日志监控平台，结合系统本身的特性总结一句话也就是：需要将Kafka中的数据导入到elasticsearch中。那么如何将Kafka中的数据导入到elasticsearch中去呢，总结起来大概有如下几种方式：Kafka->logstash->elasticsearch->kibana(简单，只需启动一个代理程序)Kafka->kafka-connect-ela...

2020-03-31 21:36:46 540

原创数据库查询结果去重常用方法整理

一般情况下，数据库去重复有以下那么三种方法：第一种：两条记录或者多条记录的每一个字段值完全相同，这种情况去重复最简单，用关键字distinct就可以去掉。例：SELECT DISTINCT * FROM TABLE使用 distinct:使用distinct去重，只能去掉重复记录，有些场景也并不是很适用，分场景而异第二种：两条记录之间之后只有部分字段的值是有重复的，但是表存在主键或...

2020-03-11 20:21:34 8742 1

原创 mysql中的where和having子句的区别(有时易与Hive中的开窗函数混淆)

下面以一个例子来具体的讲解：where和having都可以使用的场景1）select addtime,name from dw_users where addtime> 15000000002）select addtime,name from dw_users having addtime> 1500000000解释：上面的having可以用的前提是我已经筛选出了ad...

2020-02-27 11:42:52 553

原创通过工具sqoop导入hive数据时对换行等特殊字符处理

使用场景：公司大数据平台ETL操作中，在使用sqoop将mysql中的数据抽取到hive中时，由于mysql库中默写字段中会有换行符，导致数据存入hive后，条数增多（每个换行符会多出带有null值得一条数据），导致统计数据不准确。解决办法：利用一下两个参数可以实现对换行等特殊字符的替换或者删除--hive-delims-replacement--hive-drop-import-del...

2020-02-26 14:19:49 977

原创 hive：导出数据记录到MySQL中null被替换为\N的解决方案

在hive中，一般情况下通过1 use my_hive_db;2 set hive.merge.mapfiles=true;3 set hive.merge.mapredfiles=true;4 set hive.merge.size.per.task= 1000000000;5 set hive.merge.smallfiles.avgsize= 1000000000;6 inser...

2020-02-26 14:15:40 2032

原创 MySQL Binlog同步HDFS的方案

这个问题我想只要是在做数据开发的，有一定数据实时性要求、需要做数据的增量同步的公司都会遇到。19年的时候我曾经写过一点canal的文章。现在你只要看这个文章就可以了。这篇文章是一个读者推荐给我的，原地址：https://dwz.cn/XYdYpNiI，作者：混绅士我对其中的一些内容做了修改。关系型数据库和Hadoop生态的沟通越来越密集，时效要求也越来越高。本篇就来调研下实时抓取MySQ...

2020-02-15 19:59:25 1398

原创 ELK之Logstash（将mysql数据同步到ES6.6.0（全量+增量））

下载安装包时注意下载到指定文件夹这里我放在OPT文件夹下一：安装logstash进入到opt文件夹打开终端执行以下命令wget -c https://artifacts.elastic.co/downloads/logstash/logstash-6.6.0.zip加上-c支持断点续传二：解压logstashunzip logstash-6.6.0.zip三：进入到logstas...

2020-01-20 10:26:24 964

原创 mysql之浅谈主外键

主键在一个数据表中只能有唯一的一个，约束当前字段的值不能重复,且非空保证数据的完整性，也可以当做当前数据表的标识符用来查询（当做索引，唯一性索引的一种）创建带主键的表/*带主键*/CREATE TABLE T（ id int(11) not null primary key, name char(20) ); /*带复合主键*/CREATE TABLE T...

2019-12-19 10:01:06 138

原创 Spark Streaming offset的管理那些事！

Spark Streaming offset的管理那些事！1.Kafka 消息的管理办法（1） topictopic中包含多个分区，建议分区是Kafka broker的整数倍，或者是磁盘的整数倍分区数是Kafka存储的主要概念，key的Hash&numPartition,在分区里存储的时候，offset-msg消费者消费消息首先会自己确定offset的范围，然后使用该范围去k...

2019-12-05 22:49:14 335

原创运行Spark SQL报The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.

想启动spark-sql，结果报了Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH. Pleas...

2019-12-03 14:38:08 518

原创运行hbase报错（因为配置了Phoenix后）

运行HBase应用开发程序产生异常，提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesException in thread "main...

2019-11-13 17:28:29 805

原创手机号、身份证号类似脱敏处理（ETL）

先上代码：========》 //测试消费 /* inputDstream.map(_.value()).foreachRDD(rdd => println(rdd.collect().mkString("\n")) )*/ val orderInfoDstrearm: DStream[OrderInfo] = inputDstream.map {...

2019-11-08 15:05:37 1827

原创 IDEA编写Scala代码时自动显示变量类型

IDEA作为最智能的编辑器，功能真的是强大无比，在编写Scala程序时，如果显示变量类型，编写程序时会方便的多。下面就介绍如何在idea上设置显示Scala变量类型。问题如果你在编写的Scala程序的时候，不知道变量的数据类型，有可能会给你到来一下不便，如果显示变量类型，不仅知道自己编写的代码是不是有问题，或者知道自己应该如何使用变量。如果你没有设置显示类型，比如下面的数组，就不知道这个数组中...

2019-11-08 11:36:49 5121 5

原创 Canal 问题排查（不抓取数据）

问题一：ERROR c.a.otter.canal.parse.inbound.mysql.MysqlEventParser - dump address /192.168.1.50:3306 has an error, retrying. caused bycom.alibaba.otter.canal.parse.exception.CanalParseException: can’t f...

2019-11-07 14:56:20 4751

原创 Class org.openx.data.jsonserde.JsonSerDe not found (json数据聚合运算时无法识别)

首先建立基础表的时候：对于数仓中：ods层========》ods层：drop table if exists ods_startup_log;create external table ods_startup_log ( `mid` string COMMENT '设备唯一标识', `uid` string COMMENT '用户标识', `os` string COM...

2019-09-24 16:14:16 2538

原创 solr cloud模式踩坑之路（Atlas）

**主要解决两个Bug（bug糊里糊涂产生的===========> 创建索引核心失误后的教训！！！）**1.bug的由来：目的：部署Atlas2.0创建集合 --》索引建立创建命令： $SOLR_BIN/solr create -c vertex_index -d SOLR_CONF -shards #numShards -replicationFactor #replicati...

2019-09-11 22:38:23 1550

原创 atlas修改源码配置免密登录

免密测试地址：http://hadoop102:21000/index.html#!/detailPage/48c21a12-018a-41f9-a5cb-be82a388db7d修改spring security 替换 jar包地址：/opt/module/atlas/distro/target/apache-atlas-0.8.4-bin/apache-atlas-0.8....

2019-08-28 09:31:20 507 4

原创踩坑之路之（ssh执行程序时环境变量丢失）

以下是脚本启动后报错情况：====================》》》》》例子：程序启动脚本#!/bin/bashJAVA_BIN=/bigdata/jdk1.8.0_152/bin/javaPROJECT=gmall0823APPNAME=dw-logger-0.0.1-SNAPSHOT.jarSERVER_PORT=8080 case $1 in "start") ...

2019-08-28 09:27:09 744

原创 /etc/profile与/etc/bashrc的几点记录

/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件...

2019-08-23 11:34:00 214

原创 CDH环境下安装Tez(Hive on Tez )

参考地址：https://www.jianshu.com/p/3c9f1963ac02CDH环境下安装Tez一、安装环境1、Linux版本： CentOS 6.52、Hadoop版本：CDH5.8.03、Hive版本：Hive-1.1.0-cdh5.8.04、JDK版本：JDK1.85、Maven版本：apache-maven-3.5.4 （必须安装Maven）二、安装前准备1、...

2019-08-19 14:55:57 1008

原创 HBase启动RegionServer自动关闭

HBase启动RegionServer自动关闭HBase 1.2.8，采用伪分布式部署，zookeeper使用HBase自带启动后 HMaster 、 HQuorumPeer、HRegionServer 三个进程都启动了。过几秒钟后，再看，HRegionServer 消失了查看log。已经搞定了。自己回复一下，方便后来的同学遇到此类问题时。通过hbase hbck 进行检查执行...

2019-08-15 23:12:29 1889

原创 HBase：HMaster启动后自动关闭

好久没有来写博客了，总算是忙完了，今天回到阔别已久的CU。一早来到单位，就开始着手调试新测试镜像。但是一启动就出了问题，原先调试好的分布式平台却提示了错误：Zookeeper available but no active master location found直观的感觉是HMaster的问题，果然，JPS查看发现没有了HMaster进程，进入到hbase-master日志中查看，发现了以...

2019-08-15 21:33:55 2024

原创 CDH 5.1.5(parcels)集群中hive1.1.0升级到hive-1.2.1步骤全，升级hive元数据库，数据不丢失（亲测可用）

1.下载hive-1.2.1安装包 http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz2.将安装包传到集群所有节点上3.所有节点root用户下cd /opt/cloudera/parcels/CDH/lib/hivemkdir lib1214.所有节点解压 apache-hive-1.2...

2019-08-14 14:55:55 917 8

原创解决hive建表报错 character ' ' not supported here

好好的建个表hive都给我报错，疯狂一顿baidu、google。解决用有道云markdown打开(需要下载有道云笔记，没有自行官网下载)，发现前面多了若干点，如红框里面标红的。只需要删除这些点即可前面，后面多的小点点都去掉。![在这里插入图片描述](https://img-blog.csdnimg.cn/20190801231922280.png?x-oss-process=ima...

2019-08-01 23:23:19 1417

原创 kettle使用mysql作为资源库报错创建资源库时只有25张表，原本应该46张表。

kettle使用mysql作为资源库报错创建资源库时只有25张表，原本应该46张表。连用户表都没有 ,导致连默认的 admin和guest都无法登陆自己的资源库！！！！问题是 SQL语句里边使用 ‘Y’ ‘N’ 给boolean类型的赋值产生sql失败话不多说，直接将一下的sql语句在mysql 或者mariadb中建立的资源库中执行，便可解决！！！我用的mysql版本是...

2019-07-10 10:58:12 1311 1

原创 spark-shell报错：Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSData

CDH spark-shell 报错：spark-shell报错：Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream环境：openSUSE42.2spark1.6.0-cdh5.15.1Hadoop 2.6.0-cdh5.15.1按照网上的...

2019-07-10 10:27:18 3435 1

原创 CDH集群异常关闭导致zookeeper启动失败

集群异常关闭后，有个zookeeper节点始终无法启动，CM上的日志没有明显的报错解决思路：1.尝试通过命令行启动zkServer.sh start，查看zookeeper.out，发现报如下错误Unexpected exception, exiting abnormallyjava.io.EOFException at java.io.DataInputStream.r...

2019-07-09 17:08:07 2918 4

原创往hive中导入文件后查看出现中文乱码

往hive中导入.txt或者.csv文件，导入没有报错，导入后通过查询界面发现，中文字段出现乱码的情况。因为Hive默认是所有文件都是UTF-8的（utf-8本身支持中文没有问题的。hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，但是一般我们导入的文件都是在windows下编辑的，而windows默认的中文文本输出编码格式为GBK.）Hive将按照UTF8编码格式对...

2019-07-04 14:18:36 2583

空空如也

空空如也