sssuperMario-CSDN博客

原创依赖冲突解决方案-改包名

类的依赖冲突通常有两种方式：1.当冲突两者其中一方兼容另外一方时，通过exclusions和exclusion标签解决。2.但也有时我们需要两个包同时兼容,那么可以通过以下插件来解决,创建一个空项目,将其中一个依赖打进项目,然后通过relocation将包名更改为新包名,重新打包封装出新包引用.<plugin> <groupId>org.apache.maven.plugins</groupId> &l

2022-01-11 15:06:45 675

原创 linux抓包

查看网卡ifconfig一般是ethX或者enpXXX抓包tcpdump -i 网卡名称 -w xxx.pcap抓包时间需要控制短一点,否则服务器请求量大的话会造成pcap文件很大,抓完包立刻ctrl+c终止抓包查看抓包文件工具:Wireshark...

2021-10-08 08:59:18 160

原创数据挖掘算法之FP-Growth算法介绍及Spark代码实现

FP-Growth算法概述阶段1：FP树构建步骤1：清洁和分类步骤2：构造FP树，带有已清理项目集的头表阶段2：开采主要树和条件FP树步骤1：将主要FP树划分为条件FP树步骤2：递归地挖掘每个条件树使用SPARK实现算法FP树是整个FP Growth算法的核心概念。简而言之，FP树是项集数据库的压缩表示形式。树结构不仅在数据库中保留了项目集，而且还跟踪项目集之间的关联通过获取每个项目集并将其一次映射到树中的路径来构造树。这种结构背后的整个想法是发生频率更高的项集将有更好的机会共享项集然后，我们递归地挖

2021-03-30 16:20:01 1058

原创 Spark on Hive 属性配置

hive.metastore.dml.events=falsehive.execution.engine=mrhive.exec.max.dynamic.partitions=100000hive.exec.max.dynamic.partitions.pernode=100000hive.exec.orc.split.strategy=ETL

2021-03-03 17:22:26 270 1

原创 flink-入门功能整合(udf,创建临时表table,使用flink sql)

说明本次测试用scala,java版本大体都差不多,不再写两个版本了StreamTableEnvironment做了很多调整,目前很多网上的样例使用的都是过时的api,本次代码测试使用的都是官方doc中推荐使用的新api本次测试代码主要测试了三个基本功能:1.UDF 2.流处理Table的创建以及注册 3.Flink Sql代码import org.apache.flink.api.scala._import org.apache.flink.streaming.api.scala.{Da

2021-03-02 16:42:15 1818

原创 flink-入门-world count(流-scala-java)

测试项目依赖:<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</artifactId> <version>1.12.1</version> </dependency&

2021-03-01 17:41:38 267

原创创建Map,List指定容量

Map<String, String> map = Maps.newHashMapWithExpectedSize(369);List list = Lists.newArrayListWithCapacity(369);guava包

2021-01-09 10:17:14 437

原创 sql一行拆分成多行 -sparksql

def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setMaster("local").setAppName("spark-sql-test") val sparkSession = SparkSession.builder().config(conf).getOrCreate()//// val df1 = sparkSession.createDataFrame(Seq(..

2020-10-13 10:45:11 1661

原创 Spark Sql读取hive表-Unsupported data source type for direct query on files:hive；；

spark sql在读取hive表时，配置、spark与hive版本、等等很多因素可能会导致操作失败，本随笔就以下异常记录排查方案。集群环境：HDP3组件版本：spark2.3.0、hive3.0.0.3.0ERROR yarn.ApplicationMaster:user class threw exception:org.apache.spark.sql.AnalysisException:Unsupported data source type for direct query on files

2020-09-08 15:11:49 723

原创 xml转bean+xml解析工具类实现 -- Java

手头正好需要一个xml转bean的工具和xml解析工具，网上实现很多，自己造一次轮子，一整套流程直接复制可用，一分钟实现转换加解析（xml转换使用idea实现，eclipse同样有工具，一搜一大把这里就不赘述了）。本文可转载，标注来源即可。1.xml转xsd1.1样例XML(persons.xml)<?xml version="1.0" encoding="UTF-8" ?><Persons> <person id="1" races="yellow">

2020-08-28 15:27:08 749

原创 java实现占位符替换${},{}工具类

public class Parser { /** * 将字符串text中由openToken和closeToken组成的占位符依次替换为args数组中的值 * @param openToken * @param closeToken * @param text * @param args * @return */ public static String parse(String openToken, String closeToken, String t

2020-08-22 09:48:39 1233

原创 spark配置elasticsearch属性汇总(基于es7)

必要设置es.resourceElasticsearch资源位置，在该位置读取和写入数据。需要格式 <index>/<type>es.resource.read（默认为es.resource）用于读取（但不写入）数据的Elasticsearch资源。在同一作业中将数据读取和写入不同的Elasticsearch索引时很有用。通常自动设置（“ Map / Reduce”模块除外，该模块需要手动配置）。es.rource.write（默认为es.resource）用于写入

2020-08-19 15:41:16 2714 1

原创 spark streaming 读取kafka

需要依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.0.0</version> </dependency> <dependency&

2020-08-12 13:51:06 140

原创 java、scala混编maven打包依赖模板

org.scala-tools maven-scala-plugin 2.15.2 scala-compile-first process-resources ...

2020-08-07 22:35:41 134

原创 SparkSql读取hive-NumberFormatException:For input string:“0000001_0000“

SparkSql读取hive-NumberFormatException:For input string:“0000001_0000”HDP3集群环境下，spark2.3 在使用Spark Sql操作hive表时出现异常:java.lang.NumberFormatException:For input string:“0000001_0000”出现这个问题的原因其实是 HDP3.0 集成了hive 3.0和 spark 2.3，然而spark却读取不了hive表的数据数据，准确来说是内表的数据。因

2020-08-07 09:57:09 1017

原创 HADOOP集群各组件性能调优[SPARK，HBASE，HIVE，HDFS...]

HADOOP集群各组件性能调优配置原则如何发挥集群最佳性能原则1：CPU核数分配原则原则2：内存分配原则3：虚拟CPU个数分配原则4：提高磁盘IO吞吐率影响性能的因素因素1：文件服务器磁盘I/O因素2：文件服务器网络带宽因素3：集群节点硬件配置因素4：SFTP参数配置因素5：集群参数配置因素6：Linux文件预读值因素7：Jsch版本选择HBase提升 BulkLoad 效率操作场景前提条件操作步骤提升索引 BulkLoad 效率操作场景预置条件操作步骤提升数据实时入库的效率操作场景前提条件操作步骤HDFS

2020-07-15 10:26:26 811

原创 Spark 2.x 调优之Adaptive Execution

在spark的优化过程中，shuffle的分区数量和数据倾斜问题一直是一个令人比较头疼的问题，自Spark 2.3.1版本后，自动设置shuffle Partition最新代码正式加入，但动态调整执行计划与处理数据倾斜并未同期并入该版本.关于原理很多文章已经分析的差不多了，这里并不做提及，主要是记录相关参数及说明1.自动设置 Shuffle Partitionspark.sql.adaptive.enabled=true启用 Adaptive Execution 从而启用自动设置 Shuffle

2020-07-14 14:26:36 354

原创 Hbase2.x RIT修复

Hbase2.x RIT修复RITOPENINGCLOSINGhbase2.0.x由于不稳定性因素太多，还是有太多的坑，特别是没有了hbck工具的修复功能，出现问题，解决起来还是非常不方便的。躺了好评多坑，积累一下经验，持续更新。RITrit不用多解释了，hbase运维过程中相当令人头疼的，但是问题总是有解决的方法的。可以根据rit当前的状态相应的处理OPENINGopening状态顾名思义，hbase要打开某个region的时候，因为某些原因，一直打不开，导致一直在OPENING状态卡住不动了，

2020-06-19 14:10:20 988

原创 Python如何优雅的格式化XML 【Python XML Format】

格式化xml需要用到库:xml.dom.minidom直接上代码:#coding:utf-8import xml.dom.minidomuglyxml = '<?xml version="1.0" encoding="UTF-8" ?><employees><employee><Name>Leonardo DiCaprio</Name&...

2020-04-07 09:46:16 5162 4

原创 pyinstaller打包exe命令

pyinstaller打包exe命令pyinstaller -F -w -i=ico.ico a.py b.py c.py

2020-03-26 16:47:55 305

原创 pycharm PYQT产生的ui文件 pyuic生成py文件时报错: one input ui-file must be specified

今天在使用pyqt5产生ui文件时，发现无论怎么调用pyuic都提示one input ui-file must be specified（至于如何安装pyqt5和pyqt-tool的安装就不再赘述）搞了一圈才发现是pyuic5的参数问题pycharm在添加pyuic的设置时，Arguments的值应为$FileName$ -o $FileNameWithoutExtension$.py...

2020-02-28 14:20:42 1074 3

原创 scala的Seq与java的List相互转换

//Seq 转 ListList<String> list = scala.collection.JavaConversions.seqAsJavaList(seq);//List 转 SeqList<Column> list = new ArrayList<>();list.add(new Column("columnA"));Seq<Colu...

2019-12-04 14:29:48 2360

原创华为C80 yarn提交mapreduce异常：OutOfMemoryError:GC overhead limitexceeded kill -9 %p

yarn提交mapreduce异常：OutOfMemoryError:GC overhead limitexceeded kill -9 %p记一次生产环境的运算异常生产环境一直运行稳定的离线计算任务，从未出现过异常，忽然发现最近在本地提交到hadoop集群时发生异常，每当提交到yarn申请资源时，程序立刻被杀死。本地提交到集群开始运行程序，kerberos认证此时已通过，可以看到时从程...

2019-11-13 20:01:34 620

原创 java上传文件到ftp，能创建目录，但文件不能写入（FTPClient.enterLocalPassiveMode()的用法）

问题描述之前在写文件上传到ftp服务器的java代码时，发现创建目录各项操作均正常，但在写入文件时无论如何都写入不进去，文件可以创建成功，无始终是0字节，论是通过FTPClient的storeFile还是通过输出流写入，都不起作用，后来发现是数据连接模式的问题即：enterLocalPassiveMode()FTPClient的数据传输模式enterLocalPassiveMode()当在...

2019-10-12 13:34:18 2532

原创 MapReduce八股文范式模板(WordCount为例)

MapReduce-八股文范式模板mapreduce八股文mapreduce八股文八股文也称制义、制艺、时文、八比文。而所谓的股，有对偶的意思。八股文有一套相对固定的写作格式，其题目取自四书五经，以四书命题占多数。在这里套用八股文的概念，mapreduce同样有一种通用的模板框架，通过这个框架我们可以增添自己需要的业务代码来实现现实业务的需求，本文以WordCount为例。话不多说，直接上...

2019-08-27 20:50:55 361

原创 linux多机打通ssh免密登录

linux多机实现ssh免密登录1.查看本地是否存在秘钥文件2.使用 ssh-key-gen 在本地主机上创建公钥和密钥3.把公钥复制到需要打通的机器上4.打通免密1.查看本地是否存在秘钥文件ls ~/.ssh/id_rsa.pub如果有的话就不要再生成了，否则会影响以前打通的机器如果没有，进行第二步2.使用 ssh-key-gen 在本地主机上创建公钥和密钥ssh-keygen...

2019-05-08 20:44:30 913

转载 Spark自定义RDD访问HBase

http://www.zhyea.com/2017/06/21/visit-hbase-with-custom-spark-rdd.html这里介绍一个在Spark上使用自定义RDD获取HBase数据的方案。这个方案的基础是我们的HBase表的行键设计。行键设计大概是这样子的：标签ID+时间戳+随机码。平时的需求主要是导出指定标签在某个时间范围内的全部记录。根据需求和行键设计确定下实现的大...

2019-02-25 18:48:11 307

原创 YARN异常YarnException:Failed while publishing entity的解决方案

版本：HDP3.0mapreduce提交任务计算时，job已经结束，但是容器仍不能关闭持续等待五分钟INFO[Thread-100] org.apache.hadoop.yarn.event.AsyncDispatcher:Waiting for AsyncDispatcher to drain.Thread state is :WAITING五分钟后抛出异常:org.apache.h...

2019-02-25 17:43:40 3073 2

原创使用poi，java读写excel文件详细过程

通过使用poi完成java对excel文件的读写，话不多说直接开始。注意：这里依赖的jar包需要使用两个，一个是poi，一个是jxl。附上依赖： &amp;amp;amp;lt;dependency&amp;amp;amp;gt; &amp;amp;amp;lt;groupId&amp;amp;amp;gt;net.sourceforge.jexcelapi&amp;amp;amp;lt;/gr

2019-02-21 11:34:10 1209

原创 Intellij IDEA 自动生成serialVersionUID序列化版本号设置

不同于eclipse，在IDEA中serialVersionUID是默认不自动生成的，需要通过我们几步设置达到自动生成序列话版本号的目的。

2019-02-18 13:55:01 3788

原创 Yarn初始化异常：Not able to initialize user directories.exitCode:-1000

最近碰到这么一个异常：Application application_1528180019666_0366 failed 2 times due to AM Containerfor appattempt_1528180019666_0366 exited with exitCode: -1000For more detailed output, check application tra...

2019-01-30 14:58:34 2804 1

原创 YARN之Container-什么是Container？

在最基本的层面上，Container是单个节点上如RAM、CPU核核磁盘等物理资源的集合。单个节点上（或者单个大节点）可以有多个Container。系统中的每个节点可以认为是由内存（如512MB或者1GB）和CPU的最小容量的多个Container组成。ApplicationMaster可以请求任何Container来占据最小容量的整数倍的资源。因此Container代表了集群中单个几点上的一组...

2019-01-30 14:05:05 1433

原创 YARN调度组件-FIFO、Capacity、Fair调度器

YARN调度组件YARN有一个可拔插的调度器组件，根据不同的使用场景和用户需求，管理员可以选择简单的FIFO（先入先出），Capacity或者Fair Share Scheduler。Scheduler类在yarn-dafault.xml中设置关于当前正在运行的调度信息，可以通过打开的ResourceManager网站界面，在左侧的集群菜单中的调度选项找到。FIFO调度器FIFO调度基本上是...

2019-01-30 13:40:42 641

原创 Spark内存溢出OOM异常:OutOfMemoryError:GC overhead limit exceeded,Java heap space的解决方案

2019-01-09 17:35:48 5857

转载 Quartz学习笔记扩展druid连接池

http://www.myexception.cn/internet/2037782.htmlQuartz学习笔记(五) quartz扩展druid连接池问题描述 Quartz的数据源是直接在quartz.properties文件中配置完成的，考虑到调度中心和平台系统的统一性和稳定性，需要深入调研数据源连接池的内部应用技术，同时扩展成为Druid连接池技术。 问题跟...

2018-09-08 09:15:56 1189

原创 quartz使用自带xml插件配置任务调度属性

This XML file does not appear to have any style information associated with it. The document tree is shown below. &lt;xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns="http://www.quartz-...

2018-09-06 13:57:45 446

转载 JAVA获取计算机的IP、名称、操作系统等信息

import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.net.InetAddress; import java.net.NetworkInterface; import java.util.ArrayList; impo...

2018-09-05 16:00:02 446

转载 quartz创建多个不同名字的scheduler

转自:https://my.oschina.net/laiweiwei/blog/122280#comments ...

2018-09-04 11:51:58 1673

原创 quartz-2.0.X版本发行说明

Release Notes - Quartz Scheduler (Historical - Do Not File New Issues Here - See GitHub) - Version 2.0 Documentation[QTZ-76] - Document: Batch-acquiring of triggers[QTZ-77] - ...

2018-09-03 14:30:38 879

原创 quartz-2.2.X版本发行说明

Release Notes - Quartz Scheduler (Historical - Do Not File New Issues Here - See GitHub) - Version 2.2 Sub-task[QTZ-235] - Move out-of-the-box jobs into new module(s) B...

2018-09-03 14:17:10 375

spark-2.3.2源码

空空如也