qq_43193797-CSDN博客

原创 scala项目中maven打包报错java.lang.StackOverflowError解决方法

在maven项目打包的时候报错,java.lang.StackOverflowError解决方法在setting->maven->runner->VM Options中添加 -Xss4096k 如下图所示再次点击打包就可以了,如果还是报错的话,可以尝试把这个值在增大一点.此外，需要在pom.xml配置以下参数 <configurati...

2019-11-28 21:03:31 1812

转载红黑树详细分析，看了都说好

红黑树简介红黑树是一种自平衡的二叉查找树，是一种高效的查找树。它是由 Rudolf Bayer 于1972年发明，在当时被称为对称二叉 B 树(symmetric binary B-trees)。后来，在1978年被 Leo J. Guibas 和 Robert Sedgewick 修改为如今的红黑树。红黑树具有良好的效率，它可在O(logN)时间内完成查找、增加、删除等操作。因此，红黑树...

2019-09-20 10:32:00 164

转载 hive 参数调优

转载：https://blog.csdn.net/renzhixin1314/article/details/70496325Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))set mapreduce.input.file...

2019-06-15 17:22:44 253

转载 Hive的静态分区和动态分区

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6831884.html转载请注明出处虽然之前已经用过很多次hive的分区表，但是还是找时间快速回顾总结一下加深理解.举个栗子，基本需求就是Hive有一张非常详细的原子数据表original_device_open，而且还在不断随着时间增长，那么我需要给它进行分区，为什么要分区?因为我想缩小查询范...

2019-06-15 16:44:59 481

原创对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围，从而提高速度。分区分为两种：静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时，是手动输入分区名称，还是通过数据来判断数据分区。对于大数据批量导入来说，显然采用动态分区更为简单方便。- 对现存hive表的分区首先，新建一张我们需要的分区以后的表cre...

2019-06-15 16:34:55 541

原创 Spark Shuffle解析

ShuffleMapStage与ResultStageShuffleMapStage的结束伴随着shuffle文件的写磁盘。ResultStage基本上对应代码中的action算子，即将一个函数应用在RDD的各个partition的数据集上，意味着一个job的运行结束。HashShuffle解析未优化的HashShuffle一个Task多个缓存如下图中有3个 Reducer...

2019-04-25 12:52:07 181

原创 YARN Cluster模式

（1）执行脚本提交任务，实际是启动一个SparkSubmit的JVM进程；（2）SparkSubmit类中的main方法反射调用Client的main方法；（3）Client创建Yarn客户端，然后向Yarn发送执行指令：bin/java ApplicationMaster；（4）Yarn框架收到指令后会在指定的NM中启动ApplicationMaster；（5）A...

2019-04-25 10:47:14 822

原创 Spark集群启动通讯原理简单解析

（1）start-all.sh脚本，实际是执行“java -cp Master”和“java -cp Worker”；（2）Master启动时首先创建一个RpcEnv对象，负责管理所有通信逻辑；（3）Master通过RpcEnv对象创建一个Endpoint，Master就是一个Endpoint，Worker可以与其进行通信；（4）Worker启动时也是创建一个RpcEnv对象...

2019-04-23 16:26:44 308

原创 HBase之RegionServer上线和下线及Master上线和下线

RegionServer上线和下线region server上线Master使用Zookeeper跟踪RegionServer状态。当某个RegionServer启动时，会首先在Zookeeper上的Server目录下建立代表自己的文件，并获得该文件的独占锁。由于Master订阅了Server目录上的变更信息，当Server目录下的文件出现新增或者删除操作时，Master可以得到来自Zoo...

2019-01-23 11:59:24 2935

原创一个linux命令实现批量修改文件名

rename 原文件中待修改的文件名子字符串需要替换的文件名子字符串 *原文件中待修改的文件名子字符串* *需要替换的文件名子字符串*

2024-02-26 16:21:46 225

原创 notepad++编辑多个位置

在notepad++设置多次点击不同的位置，然后同时操作这多个位置的方法：1、选择编辑，首选项：

2023-09-21 09:12:22 625

原创根据今天全量的数据以及昨天全量的数据，获取今天修改的数据

编写了一个根据今天的全量的数据以及昨天全量的数据，自动获取今天增量数据的脚本。

2023-08-06 16:57:53 592

原创 sparksql中使用with子查询，insert overwrite table的正确用法示例

【代码】sparksql中使用with子查询，insert overwrite table的正确用法示例。

2023-08-01 16:36:07 1756

way_bill_id（运单表主键），shiping_date（下单日期，时间格式为yyyy-MM-dd），payment_customer_id（付款客户），damaged_degree_type（是否严重破损，为枚举值。1为是，0为否），is_throw_away（是否丢失，为枚举值。1为是，0为否），is_pickup_overtime（是否取超时，为枚举值。求连续俩周严重破损，丢失、取超时的客户。第三部，将本周与上周的指标打平成一行。第二步，求本周与上周的相关指标。求每天严重破损、取超时的客户。

2023-08-01 11:09:24 2173 1

原创汉明码原理

abcdefg这一串二进制数据中，g的角标从右到左数为1，f的角标为2，e的角标为3，d的角标为4，c的角标为5，b的角标为6，a的角标为7。所以自己网上查了很多资料，也想了很多天，终于对汉明码的原理有了自己的理解，所以想写篇博客，总结一下，也希望能够帮助到大家！思路：对汉明码的每一个二进制的角标上面的位置一一进行偶校验，比如我们传输这样一个二进制数据：abcdefg，(a、b、c、d、e、f、g 的值为0或者1其中一个数)。凡是位置符合这种形式的，1XXX，归到P4；一、汉明码的纠错检错。

2022-09-03 10:22:13 932

原创 hbase的rowkey设计

2021-10-07 12:11:09 269

原创 Flink 指定时间范围内网站总浏览量（PV）的统计

基于Flink 统计每小时内的网站PV。public class Flink03_Practice_PageView_Window2 { public static void main(String[] args) throws Exception { //1.获取执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

2021-09-19 23:18:19 910

转载 FLINK SQL 时间戳转换

1.TO_TIMESTAMP时间戳类型转换问题上图是来自阿里巴巴FlinkSQL开发手册,案例中TO_TIMESTAMP可以将13位bigint类型的UNIX时间戳转换成 TIMESTAMP的日期类型2017-09-15T00:00这种形式。实际操作过程中会出现报错：Flink SQL> select TO_TIMESTAMP(1513135677000);[ERROR] Could not execute SQL statement. Reason:org.apach...

2021-09-17 15:56:59 22673 2

原创 Flink CEP 循环模式的连续性

松散连续默认是松散连续package com.webank.test01;import org.apache.flink.cep.CEP;import org.apache.flink.cep.PatternFlatSelectFunction;import org.apache.flink.cep.PatternStream;import org.apache.flink.cep.pattern.Pattern;import org.apache.flink.cep.pattern.

2021-09-13 17:39:03 653

原创 Flink CEP 组合模式(模式序列)

1. 严格连续期望所有匹配的事件严格的一个接一个出现，中间没有任何不匹配的事件。举例：获取字母b紧跟着字母b的数据。当且仅当数据为a,b,c,b,b时，对于next模式而言命中的为{b,b}import org.apache.flink.cep.CEP;import org.apache.flink.cep.PatternFlatSelectFunction;import org.apache.flink.cep.PatternStream;import org.apache.flink.

2021-09-13 17:07:16 637

原创 Flink简介与快速入门

1.1 初识Flink

2021-06-17 10:20:44 229

原创 Spark读取Json类型的数据与读取Hive中的数据

1.spark读取json类型的数据val df = spark.read.json("examples/src/main/resources/vertex")df.show(5,false)2.spark读取hive中的数据val spark = SparkSession.builder().master("yarn").appName("hive2nebula").enableHiveSupport().getOrCreate()val sql: String ="select id_no

2021-04-12 20:20:27 725

原创 Spark-submit打印数据

spark.read.json("/user/log/ad/hdt_bid/2021041201")df.take(5).foreach(print)spark.read.json("/user/log/ad/hdt_bid/2021041201")df.show(true)

2021-04-12 11:57:44 497

原创 es java聚合方法——多字段分组并求和

/*** 多字段分组并求和；实现sql:select field1, field2, sum(field3) from table_name group by field1, field2;*/@Testpublic void sumAfterTwiceAgg() {SearchResponse response = client.prepareSearch(“twitter”).setTypes(“tweet”).addAggregation(AggregationBuilders.terms

2021-03-11 13:44:29 2093 1

转载 elasticsearch---批量修改，批量更新某个字段

原文链接：http://www.mamicode.com/info-detail-2524351.html1.源生API在这里没有用官方提供的bulk API，而是用的另外一种方式。POST /infomations/infomations/_update_by_queryJSON请求格式{ "query": { "match": { "status": "UP_SHELF" } }, "script": {

2021-03-11 11:19:50 4821 1

转载 ES_记一次分页查询(getHits().getTotalHits() 获取总条目)为0的问题

问题描述ES分页查询的代码如下：SearchResponse searchResponse = highLevelClient.search(searchRequest, RequestOptions.DEFAULT);long totalNum = searchResponse.getHits().getTotalHits(); //返回的是long型的SearchHit[] searchHits = searchResponse.getHits().getHits();随着ES ser

2021-03-11 11:04:09 2955

原创 ElasticSearch multi search java api问题

当前ES api文档上面看到SearchRequestBuilder srb1 = node.client().prepareSearch().setQuery(QueryBuilders.queryStringQuery(“elasticsearch”)).setSize(1);SearchRequestBuilder srb2 = node.client().prepareSearch().setQuery(QueryBuilders.matchQuery(“name”, “kimchy”)).

2021-03-10 16:48:37 352

原创 2021年，12月28号开始面试，截止时间2月8号收到的offer情况

平安科技离线数据仓库；微众银行后端flink实时数据开发；慧科讯业（国内最大中文搜索库）实时spark开发；领星网络实时流批一体数据湖。领星网络和微众银行总包应该差不多，领星网络的技术架构可能比较新，架构师打算才有最新流批一体技术方案，flink cdc+iceberg微众银行平台大...

2021-02-24 15:42:06 306

原创 Spark读取hdfs文件原理

var sconf = new SparkConf().setAppName(this.getClass.getName).setMaster("yarn")var sc = new SparkContext(sconf)sc.textFile("hdfs://m2:9820/README.md")查看textFile方法内容如下： /** * Read a text file from HDFS, a local file system (available on all nodes),

2020-12-25 16:13:01 877

原创时间维度表生成脚本

# !/bin/bashstart_date=$1end_date=$2temp_date_full=`date -d $start_date +%F`temp_start_second=`date -d $start_date +%s`temp_end_second=`date -d $end_date +%s`min=1max=$[($temp_end_second-$temp_start_second)/(24*60*60)+1]cat /dev/null &gt...

2020-12-16 17:31:34 370

原创统计指定路径hive表存量

etldate=(20201111)etlhour=(00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23)sum=0for date in ${etldate[@]}do for hour in ${etlhour[@]} do count=`hadoop fs -ls /user/hive/databases/mydata/data_date=$date$hour | awk -F ' ' '

2020-11-23 13:53:18 184

原创 linux查找指定目录下面多种后缀名的方法

方式一：ls /home/user | grep ".*\.png\|.*\.jpg"方式二：find ./ -regex ".*\.png\|.*\.jpg"

2020-11-20 11:05:26 3688

原创布隆过滤器原理

布隆过滤器（Bloom Filter）的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为m，哈希函数的个数为k以上图为例，具体的操作流程：假设集合里面有3个元素{x, y, z}，哈希函数的个数为3。首先将位数组进行初始化，将里面每个位都设置位0。对于集合里面的每一个元素，将元素依次通过3个哈希函数进行映射，每次映射都会产生一个哈希值，这个值对应位数组上面的一个点，然后将位数组对应的位置标记为1。查询W元素是否存在集合中的时候，同样的方法将W通过哈希映射到位数组上的3个点。如果3个点的其中有

2020-11-11 13:38:23 357

原创如何从HDFS导入数据到ClickHouse

从ClickHouse 18.16.0版本开始支持从HDFS读文件，在 19.1.6 版本对HDFS访问功能进行了增强，支持读和写，在 19.4 版本以后开始支持Parquet格式。本文介绍了如何从HDFS中读数据到ClickHouse中，测试版本为：19.4在访问HDFS之前需要定义一个访问HDFS的表，指定表引擎为HDFS。表创建完成后，就可以对这张表进行查询。一、查询CSV文件例如，在HDFS上有一个数据文件：books.csv，内容如下：hadoop fs -cat /user/hive/c

2020-10-23 15:06:10 1568

转载新增多个 Flume 实例后，Kafka 数据重复消费问题处理

文章转载自：https://blog.csdn.net/hejiangtju/article/details/80364388我们使用 Flume 将数据从 Kafka 加载到 Hive 中。由于启动一个 Flume 实例时，数据加载的速度只能达到 10MB/秒 (每条Kafka记录100B)。于是我们计划启动多个 Flume 实例 (指定同一个消费者组名称)。我们知道 Kafka 数据消费是以 Partition 为单位的，即一个 Partition 只能被一个 Flume 实例消费。当启动第二个

2020-10-23 14:00:08 723

linux与shell相关

空空如也