- 博客(55)
- 资源 (2)
- 收藏
- 关注
原创 Exception in thread “main“ java.lang.NoSuchMethodError: io.netty.util.internal.ReflectionUtil.trySet
Exception in thread "main" java.lang.NoSuchMethodError: io.netty.util.internal.ReflectionUtil.trySetAccessible(Ljava/lang/reflect/AccessibleObject;)Ljava/lang/Throwable;
2022-07-18 18:54:51 1272
原创 scala map转json json转map,还有一个直接像map一样存值的json
案例一:案例二:import java.utilimport net.minidev.json.{JSONObject}import net.minidev.json.parser.JSONParserimport scala.collection.mutableimport scala.collection.JavaConversi
2022-07-06 17:34:16 941
原创 starRocks count(distainct(id)) 统计出现bug
SELECT COUNT(vin),COUNT(distinct(vin)) from ods.info;后面COUNT(distinct(vin)) 统计数据不正确,本应221这个结果,实际结果10处理方式:下面三行直接一起执行set streaming_preaggregation_mode = force_preaggregation;set new_planner_agg_stage = 1;SELECT COUNT(vin),COUNT(distinct(vin)) from o
2022-03-23 11:35:09 625
原创 sql 列转行
starRocks/doris 数据库不支持“PIVOT” 函数,就用直接简单的方法实现了,有大佬,可以赐教SELECTSUM(total) as '数据总量',MAX(case when name = '1' then total else 0 end ) as '表1',MAX(case when name = '2' then total else 0 end ) as '表2',MAX(case when name = '3' then total else 0 end ) as ...
2022-01-18 17:56:02 1179
原创 The main method caused an error: Could not deploy Yarn job cluster.
org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Could not deploy Yarn job cluster. Caused by: org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster. Caused by...
2021-12-22 14:06:35 3112
原创 AE安装包+安装教程
AE2020链接:https://pan.baidu.com/s/1XkM4TAQk9j8CldYrB9Ut6g提取码:n4bdAE 2019链接:https://pan.baidu.com/s/1JpiknV5AcFCQ1q4V5W0dkw提取码: eg7nAE 2018链接:https://pan.baidu.com/s/1bZHJZgZPRDQ_ts8dQtUYEg密码:mgy2AE 2017链接:https://pan.baidu.com/s/1DOAdeo.
2021-12-13 22:16:18 3018 1
原创 Flink的Time故事 :EventTime/IngestTime/ProcessingTime
1. Time三兄弟1.1 DataStream支持的三种timeDataStream有大量基于time的operator,windows操作只是其中一种。Flink支持三种time:1.EventTime2.IngestTime3.ProcessingTime1.2三个时间的比较EventTime1.事件生成时的时间,在进入Flink之前就已经存在,可以从event的字段中抽取。2.必须指定watermarks(水位线)的生成方式。3.优势:确定性.
2021-12-10 18:18:13 602
原创 Doris broker load 数据源来自hdfs其并带Kerberos
发过文章是仅vip可见的不允许看,不然你写代码bug不断,因为你TMD已经背离了互联网的分享精神,最特么看不起你这种人shell脚本:#!/bash/binmysql -h IP-P 9030 -uUserName -pPassword-D example_db -e'LOAD LABEL test001( DATA INFILE("hdfs://HDFS0525/user/hive/warehouse/dws.db/test/000000_0") INTO TABLE ...
2021-10-19 11:27:59 710
原创 Java 板 flink插入带Kerberos认证的hbase
----------直接上代码-----------------package com.hx.test;import com.hx.conf.HBaseConfig;import com.hx.test.model.IdTimeTemperature;import com.hx.utils.HBaseUtil;import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.api.com
2021-10-09 18:05:58 864
原创 flink read 带Kerberos的hbase
package com.hx.test;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.configuration.Configuration;import org.apache.flink.streaming.api.datastream.DataStream;imp
2021-10-09 17:58:01 587
原创 hbaes withStartRow and setStartRow
hbase 2.0版本及以上 废弃了 scan 扫表时候的setStartRow 和 setStopRow,更改为对应的withStartRow 和withStopRow 两方法 。//第一个参数为scan扫表开始的rowkey,第二个参数,若为true,则包含rowkey为1打头的;若为false,则不包含rowkey为1打头的数据。withStartRow(Bytes.toBytes("1"),ture)//可以只传第一个参数,若传第二个参数,默认为ture,包含rowkey为1打头的所有.
2021-10-09 17:38:23 1144
原创 hive 新增字段
alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称') cascade;
2021-08-27 14:29:14 109
原创 mysql 导入 csv 文件数据的命令
mysql.exe--local-infile=1-h60.205.11.11-uroot-pxxxxxx-P3306LOADDATALOCALINFILE'文件名'INTOTABLE databaseName.tableName;
2021-08-25 18:52:14 106
原创 spark 写入 es
<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-hadoop</artifactId> <version>7.10.2</version> </dependency> <dependency>...
2021-08-25 15:26:57 446
原创 sparkSql 直接执行外部 sql/hql文件 升级篇2 udf函数
package hx.comimport hx.com.UDF.{JudgeLicense, SqlDataSource, UDF, UuidUdf}import hx.com.constant.PropConstantsimport hx.com.util.PropertieUtilimport org.apache.hadoop.security.UserGroupInformationimport org.apache.log4j.Loggerimport org.apache.spar
2021-08-25 15:21:35 407
原创 es和hive外部表映射
CREATE EXTERNAL TABLE `dws.外表name`( `id` string COMMENT 'from deserializer', `create_by` string COMMENT 'from deserializer', `create_at` timestamp COMMENT 'from deserializer', `update_by` string COMMENT 'from deserializer', ...
2021-08-25 15:10:31 1058
原创 sparkSql 直接执行外部 sql/hql文件 较上篇的升级篇
升级处理了sql文件中文注册乱码问题yarn-client模式,local模式,配置文件直接在本地就可以直接运行了。yarn-cluster在读取配置文件的时候让运维兄弟在yarn的nodeManager所有计算节的磁盘上挂载了一个hdfs共享盘(resourceManager节点上没挂),直接把配置文件和sql文件丢进去,直接cluster模式跑就和client,local模式一样。===================pom文件如下=============<?xml versio
2021-06-30 19:07:30 586
原创 sparkSql 直接执行外部 sql/hql文件
话不多说上代码:======idea 部分代码======begin=====import org.apache.hadoop.security.UserGroupInformationimport org.apache.spark.sql.SparkSessionimport java.io.Fileimport java.util.Propertiesimport scala.io.{BufferedSource, Source}/*** ods层数据清洗落地到dwd层*/..
2021-06-29 21:26:29 1614 1
原创 21/06/09 10:40:59 ERROR tool.JobTool: Error parsing arguments to the job-specific tool: org.apache.
21/06/09 10:40:59 ERROR tool.JobTool: Error parsing arguments to the job-specific tool:org.apache.commons.cli.MissingArgumentException: Missing argument for option: hbase-row-key
2021-06-09 11:49:15 346
原创 kafka 0.10.0 ERROR internals.ConsumerCoordinator: Offset commit failed.
kafka,spark版本:kafka 0.10.0 spark2.3.0ERROR internals.ConsumerCoordinator: Offset commit failed.org.apache.kafka.clients.consumer.RetriableCommitFailedException: Commit offsets failed with retriabl...
2019-12-02 17:16:45 1186
原创 phantomjs 安装教程
参考网址:https://blog.csdn.net/weixin_42657103/article/details/81543113 安装selenium 后就可以用Python 操作phantomjs啦后面有pip install selenium //自动化测试的,
2018-12-01 16:39:18 164
原创 git 命令大全。。。点个赞呗
Git的四个组成部分img1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untrac...
2018-11-07 09:43:44 141
原创 python3.7 安装scrapy anaconda
1本地没有直接安装python3.7是先安装了anaconda,直接安装了python3.7,然后在anaconda中安装了scrapy只在anaconda中安装完不算完 2 在http://www.lfd.uci.edu/~gohlke/pythonlibs/有很多用于windows的编译好的Python第三方库,我们下载好对应自己Python版本的库即可。...
2018-11-01 17:43:40 728
原创 Anaconda各种版本下载
官网首页总是现实最新版本的anaconda,如果我们想下载旧版本就得找半天,所有版本在这个网站都可以下载:https://repo.continuum.io/archive/https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ (推荐,清华大学开源软件镜像站进行下载并配置镜像)Anaconda3-4.3.0.1-Windows-x86...
2018-10-26 09:40:58 1268
原创 impala sql 脱敏 数据大约1亿1千万 + 800多万
impala sql 脱敏 数据大约1亿1千万 强大的impala 几分钟 就搞定了,一直跟担心会吧集群跑崩掉,想多了,impala + kudu 结构背景:修改生产,用户表8百万数据,订单表1亿一千万数据impala sql 发现,一个汉字的长度是3(不固定,有的一个汉字长度更长)直接对全表数据的进行update操作,对已经有脱敏数据,直接跳过 手机号脱敏UPDAT...
2018-09-26 15:16:04 1343
原创 next seq
package xiangqi_spark.YeWuimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import xiangqi_spark.util_scala.YearMonthDay2Timestampimport scala.collection.mutableimp...
2018-06-14 14:42:07 346
原创 删除hive的分区元数据,spark总是读取到已经删掉的分区
org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://testcluster/user/hive/warehouse/....问题分析在hive中执行show partitions test,查看test表对应的所有分区。看了下之前添加过的所有分区,发现有个分区对应的hdfs目录不存在了(...
2018-05-23 11:00:35 4726
原创 kafka重新分配partition
今天kafka测试环境中机器磁盘告警,占用率超过了80%,原来是某一个topic的partition为1,只往一台机器上写数据,造成kafka集群空间使用不均。下面主要使用kafka-topics.sh和kafka-reassign-partitions.sh来解决问题。推荐使用kafka manager来管理kafka集群。修改topic的partitions1./bin/kafka-topic...
2018-03-19 17:25:09 783
原创 Linux 交换内存处理 CDH 交换内存报错
设置swap交换内存:【关闭Linux的swap交换内存】操作:sysctl -w vm.swappiness=0查看交换内存:cat /proc/sys/vm/swappiness linux系统会用内存做很 多的buffer和cache,所以经常会看到内存用完了,其实这里面可能只有很少的一部分是程序用到的。当内存不足的时候,系统有两种选择,一
2017-11-13 17:08:06 2129
原创 spark on hive 写入hdfs 用csv格式
Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: csv. Please find packages at http://spark-packages.org at org.apache.spark.sql.execution.datasources.R
2017-10-25 20:45:09 2008
原创 spark on hive 写入hdfs
Exception in thread "main" java.io.IOException: No FileSystem for scheme: http at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2795) at org.apache.hadoop.fs.Fil
2017-10-25 18:34:48 728
原创 java 追加内容写入本地文件
直接上代码:可以直接代码copypackage utils;import java.io.IOException;import java.io.RandomAccessFile;/** * 想本地文件中写入数据 */public class WriteFileToLocal { /** * 向本地文件中写入数据 * @param fileNa
2017-10-19 14:45:12 1199
apriori.py
2018-11-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人