辉哥之吞并BAT-CSDN博客

原创 Exception in thread “main“ java.lang.NoSuchMethodError: io.netty.util.internal.ReflectionUtil.trySet

Exception in thread "main" java.lang.NoSuchMethodError: io.netty.util.internal.ReflectionUtil.trySetAccessible(Ljava/lang/reflect/AccessibleObject;)Ljava/lang/Throwable;

2022-07-18 18:54:51 1272

原创 sql ：根据a列分组并合并b列-- --简称分组合并

sql ：根据a列分组并合并b列-- --简称分组合并

2022-07-06 17:40:36 411

原创 scala map转json json转map，还有一个直接像map一样存值的json

案例一：案例二：import java.utilimport net.minidev.json.{JSONObject}import net.minidev.json.parser.JSONParserimport scala.collection.mutableimport scala.collection.JavaConversi

2022-07-06 17:34:16 941

原创 starRocks count(distainct(id)) 统计出现bug

SELECT COUNT(vin),COUNT(distinct(vin)) from ods.info;后面COUNT(distinct(vin)) 统计数据不正确，本应221这个结果，实际结果10处理方式：下面三行直接一起执行set streaming_preaggregation_mode = force_preaggregation;set new_planner_agg_stage = 1;SELECT COUNT(vin),COUNT(distinct(vin)) from o

2022-03-23 11:35:09 625

原创 sql 列转行

starRocks/doris 数据库不支持“PIVOT” 函数，就用直接简单的方法实现了，有大佬，可以赐教SELECTSUM(total) as '数据总量',MAX(case when name = '1' then total else 0 end ) as '表1',MAX(case when name = '2' then total else 0 end ) as '表2',MAX(case when name = '3' then total else 0 end ) as ...

2022-01-18 17:56:02 1179

原创单核可以并发么？

单核理论上只能并发，不能并行

2021-12-27 13:57:31 1214 3

原创 The main method caused an error: Could not deploy Yarn job cluster.

org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Could not deploy Yarn job cluster. Caused by: org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster. Caused by...

2021-12-22 14:06:35 3112

原创 AE安装包+安装教程

AE2020链接：https://pan.baidu.com/s/1XkM4TAQk9j8CldYrB9Ut6g提取码：n4bdAE 2019链接：https://pan.baidu.com/s/1JpiknV5AcFCQ1q4V5W0dkw提取码: eg7nAE 2018链接：https://pan.baidu.com/s/1bZHJZgZPRDQ_ts8dQtUYEg密码：mgy2AE 2017链接：https://pan.baidu.com/s/1DOAdeo.

2021-12-13 22:16:18 3018 1

原创 Flink的Time故事 :EventTime/IngestTime/ProcessingTime

1. Time三兄弟1.1 DataStream支持的三种timeDataStream有大量基于time的operator，windows操作只是其中一种。Flink支持三种time:1.EventTime2.IngestTime3.ProcessingTime1.2三个时间的比较EventTime1.事件生成时的时间，在进入Flink之前就已经存在，可以从event的字段中抽取。2.必须指定watermarks（水位线）的生成方式。3.优势：确定性.

2021-12-10 18:18:13 602

原创 Doris broker load 数据源来自hdfs其并带Kerberos

发过文章是仅vip可见的不允许看，不然你写代码bug不断，因为你TMD已经背离了互联网的分享精神，最特么看不起你这种人shell脚本：#!/bash/binmysql -h IP-P 9030 -uUserName -pPassword-D example_db -e'LOAD LABEL test001( DATA INFILE("hdfs://HDFS0525/user/hive/warehouse/dws.db/test/000000_0") INTO TABLE ...

2021-10-19 11:27:59 710

原创 Java 板 flink插入带Kerberos认证的hbase

----------直接上代码-----------------package com.hx.test;import com.hx.conf.HBaseConfig;import com.hx.test.model.IdTimeTemperature;import com.hx.utils.HBaseUtil;import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.api.com

2021-10-09 18:05:58 864

原创 flink read 带Kerberos的hbase

package com.hx.test;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.configuration.Configuration;import org.apache.flink.streaming.api.datastream.DataStream;imp

2021-10-09 17:58:01 587

原创 hbaes withStartRow and setStartRow

hbase 2.0版本及以上废弃了 scan 扫表时候的setStartRow 和 setStopRow，更改为对应的withStartRow 和withStopRow 两方法。//第一个参数为scan扫表开始的rowkey，第二个参数，若为true，则包含rowkey为1打头的；若为false，则不包含rowkey为1打头的数据。withStartRow(Bytes.toBytes("1"),ture)//可以只传第一个参数，若传第二个参数，默认为ture，包含rowkey为1打头的所有.

2021-10-09 17:38:23 1144

原创 hive 新增字段

alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称') cascade;

2021-08-27 14:29:14 109

原创 mysql 导入 csv 文件数据的命令

mysql.exe--local-infile=1-h60.205.11.11-uroot-pxxxxxx-P3306LOADDATALOCALINFILE'文件名'INTOTABLE databaseName.tableName;

2021-08-25 18:52:14 106

原创 spark 写入 es

<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-hadoop</artifactId> <version>7.10.2</version> </dependency> <dependency&gt...

2021-08-25 15:26:57 446

原创 sparkSql 直接执行外部 sql/hql文件升级篇2 udf函数

package hx.comimport hx.com.UDF.{JudgeLicense, SqlDataSource, UDF, UuidUdf}import hx.com.constant.PropConstantsimport hx.com.util.PropertieUtilimport org.apache.hadoop.security.UserGroupInformationimport org.apache.log4j.Loggerimport org.apache.spar

2021-08-25 15:21:35 407

原创 es和hive外部表映射

CREATE EXTERNAL TABLE `dws.外表name`( `id` string COMMENT 'from deserializer', `create_by` string COMMENT 'from deserializer', `create_at` timestamp COMMENT 'from deserializer', `update_by` string COMMENT 'from deserializer', ...

2021-08-25 15:10:31 1058

原创 sparkSql 直接执行外部 sql/hql文件较上篇的升级篇

升级处理了sql文件中文注册乱码问题yarn-client模式，local模式，配置文件直接在本地就可以直接运行了。yarn-cluster在读取配置文件的时候让运维兄弟在yarn的nodeManager所有计算节的磁盘上挂载了一个hdfs共享盘（resourceManager节点上没挂），直接把配置文件和sql文件丢进去，直接cluster模式跑就和client，local模式一样。===================pom文件如下=============<?xml versio

2021-06-30 19:07:30 586

原创 sparkSql 直接执行外部 sql/hql文件

话不多说上代码：======idea 部分代码======begin=====import org.apache.hadoop.security.UserGroupInformationimport org.apache.spark.sql.SparkSessionimport java.io.Fileimport java.util.Propertiesimport scala.io.{BufferedSource, Source}/*** ods层数据清洗落地到dwd层*/..

2021-06-29 21:26:29 1614 1

原创 21/06/09 10:40:59 ERROR tool.JobTool: Error parsing arguments to the job-specific tool: org.apache.

21/06/09 10:40:59 ERROR tool.JobTool: Error parsing arguments to the job-specific tool:org.apache.commons.cli.MissingArgumentException: Missing argument for option: hbase-row-key

2021-06-09 11:49:15 346

原创 kafka 0.10.0 ERROR internals.ConsumerCoordinator: Offset commit failed.

kafka，spark版本：kafka 0.10.0 spark2.3.0ERROR internals.ConsumerCoordinator: Offset commit failed.org.apache.kafka.clients.consumer.RetriableCommitFailedException: Commit offsets failed with retriabl...

2019-12-02 17:16:45 1186

原创 phantomjs 安装教程

参考网址:https://blog.csdn.net/weixin_42657103/article/details/81543113 安装selenium 后就可以用Python 操作phantomjs啦后面有pip install selenium //自动化测试的，

2018-12-01 16:39:18 164

原创 git 命令大全。。。点个赞呗

Git的四个组成部分img1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区，不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区，包括untrac...

2018-11-07 09:43:44 141

原创 python3.7 安装scrapy anaconda

1本地没有直接安装python3.7是先安装了anaconda，直接安装了python3.7，然后在anaconda中安装了scrapy只在anaconda中安装完不算完 2 在http://www.lfd.uci.edu/~gohlke/pythonlibs/有很多用于windows的编译好的Python第三方库，我们下载好对应自己Python版本的库即可。...

2018-11-01 17:43:40 728

原创 Anaconda各种版本下载

官网首页总是现实最新版本的anaconda，如果我们想下载旧版本就得找半天，所有版本在这个网站都可以下载：https://repo.continuum.io/archive/https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ （推荐，清华大学开源软件镜像站进行下载并配置镜像）Anaconda3-4.3.0.1-Windows-x86...

2018-10-26 09:40:58 1268

原创 impala sql 脱敏数据大约1亿1千万 + 800多万

impala sql 脱敏数据大约1亿1千万强大的impala 几分钟就搞定了，一直跟担心会吧集群跑崩掉，想多了，impala + kudu 结构背景：修改生产，用户表8百万数据，订单表1亿一千万数据impala sql 发现，一个汉字的长度是3（不固定，有的一个汉字长度更长）直接对全表数据的进行update操作，对已经有脱敏数据，直接跳过手机号脱敏UPDAT...

2018-09-26 15:16:04 1343

原创 next seq

package xiangqi_spark.YeWuimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import xiangqi_spark.util_scala.YearMonthDay2Timestampimport scala.collection.mutableimp...

2018-06-14 14:42:07 346

原创删除hive的分区元数据，spark总是读取到已经删掉的分区

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://testcluster/user/hive/warehouse/....问题分析在hive中执行show partitions test，查看test表对应的所有分区。看了下之前添加过的所有分区，发现有个分区对应的hdfs目录不存在了（...

2018-05-23 11:00:35 4726

原创 kafka重新分配partition

今天kafka测试环境中机器磁盘告警，占用率超过了80%，原来是某一个topic的partition为1，只往一台机器上写数据，造成kafka集群空间使用不均。下面主要使用kafka-topics.sh和kafka-reassign-partitions.sh来解决问题。推荐使用kafka manager来管理kafka集群。修改topic的partitions1./bin/kafka-topic...

2018-03-19 17:25:09 783

原创 phoenix for cdh5.9 搭建以及注意点

phoenix 和CDH整合，大数据

2017-11-23 14:03:10 1158 2

原创 Linux 交换内存处理 CDH 交换内存报错

设置swap交换内存:【关闭Linux的swap交换内存】操作：sysctl -w vm.swappiness=0查看交换内存：cat /proc/sys/vm/swappiness linux系统会用内存做很多的buffer和cache，所以经常会看到内存用完了，其实这里面可能只有很少的一部分是程序用到的。当内存不足的时候，系统有两种选择，一

2017-11-13 17:08:06 2129

原创 spark on hive 写入hdfs 用csv格式

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: csv. Please find packages at http://spark-packages.org at org.apache.spark.sql.execution.datasources.R

2017-10-25 20:45:09 2008

原创 spark on hive 写入hdfs

Exception in thread "main" java.io.IOException: No FileSystem for scheme: http at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2795) at org.apache.hadoop.fs.Fil

2017-10-25 18:34:48 728

转载 hive中的NULL(hive空值处理)

66666666

2017-10-19 19:47:04 1379

原创 java 覆盖写入

java 覆盖写入

2017-10-19 15:27:14 860

原创 java 读取文件

java 读取文件

2017-10-19 15:06:37 269

原创 java 追加内容写入本地文件

直接上代码：可以直接代码copypackage utils;import java.io.IOException;import java.io.RandomAccessFile;/** * 想本地文件中写入数据 */public class WriteFileToLocal { /** * 向本地文件中写入数据 * @param fileNa

2017-10-19 14:45:12 1199

apriori.py

sparkStreaming消费数据不丢失

空空如也