自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark 分组后排序 spark 分组排序

spark 分组排序

2022-08-25 17:41:02 608

原创 sql 列转行 (行专列 )拼接查出的多个结果集

sql 列转行

2022-07-27 17:29:16 633

原创 Exception in thread “main“ java.lang.NoSuchMethodError: io.netty.util.internal.ReflectionUtil.trySet

Exception in thread "main" java.lang.NoSuchMethodError: io.netty.util.internal.ReflectionUtil.trySetAccessible(Ljava/lang/reflect/AccessibleObject;)Ljava/lang/Throwable;

2022-07-18 18:54:51 1245

原创 sql :根据a列分组并合并b列-- --简称分组合并

sql :根据a列分组并合并b列-- --简称分组合并

2022-07-06 17:40:36 390

原创 scala map转json json转map,还有一个直接像map一样存值的json

案例一:案例二:import java.utilimport net.minidev.json.{JSONObject}import net.minidev.json.parser.JSONParserimport scala.collection.mutableimport scala.collection.JavaConversi

2022-07-06 17:34:16 922

原创 starRocks count(distainct(id)) 统计出现bug

SELECT COUNT(vin),COUNT(distinct(vin)) from ods.info;后面COUNT(distinct(vin)) 统计数据不正确,本应221这个结果,实际结果10处理方式:下面三行直接一起执行set streaming_preaggregation_mode = force_preaggregation;set new_planner_agg_stage = 1;SELECT COUNT(vin),COUNT(distinct(vin)) from o

2022-03-23 11:35:09 609

原创 sql 列转行

starRocks/doris 数据库不支持“PIVOT” 函数,就用直接简单的方法实现了,有大佬,可以赐教SELECTSUM(total) as '数据总量',MAX(case when name = '1' then total else 0 end ) as '表1',MAX(case when name = '2' then total else 0 end ) as '表2',MAX(case when name = '3' then total else 0 end ) as ...

2022-01-18 17:56:02 1153

原创 单核可以并发么?

单核理论上只能并发,不能并行

2021-12-27 13:57:31 1184 3

原创 The main method caused an error: Could not deploy Yarn job cluster.

org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Could not deploy Yarn job cluster. Caused by: org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster. Caused by...

2021-12-22 14:06:35 3073

原创 AE安装包+安装教程

AE2020链接:https://pan.baidu.com/s/1XkM4TAQk9j8CldYrB9Ut6g提取码:n4bdAE 2019链接:https://pan.baidu.com/s/1JpiknV5AcFCQ1q4V5W0dkw提取码: eg7nAE 2018链接:https://pan.baidu.com/s/1bZHJZgZPRDQ_ts8dQtUYEg密码:mgy2AE 2017链接:https://pan.baidu.com/s/1DOAdeo.

2021-12-13 22:16:18 2929 1

原创 Flink的Time故事 :EventTime/IngestTime/ProcessingTime

1. Time三兄弟1.1 DataStream支持的三种timeDataStream有大量基于time的operator,windows操作只是其中一种。Flink支持三种time:1.EventTime2.IngestTime3.ProcessingTime1.2三个时间的比较EventTime1.事件生成时的时间,在进入Flink之前就已经存在,可以从event的字段中抽取。2.必须指定watermarks(水位线)的生成方式。3.优势:确定性.

2021-12-10 18:18:13 586

原创 Doris broker load 数据源来自hdfs其并带Kerberos

发过文章是仅vip可见的不允许看,不然你写代码bug不断,因为你TMD已经背离了互联网的分享精神,最特么看不起你这种人shell脚本:#!/bash/binmysql -h IP-P 9030 -uUserName -pPassword-D example_db -e'LOAD LABEL test001( DATA INFILE("hdfs://HDFS0525/user/hive/warehouse/dws.db/test/000000_0") INTO TABLE ...

2021-10-19 11:27:59 685

原创 Java 板 flink插入带Kerberos认证的hbase

----------直接上代码-----------------package com.hx.test;import com.hx.conf.HBaseConfig;import com.hx.test.model.IdTimeTemperature;import com.hx.utils.HBaseUtil;import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.api.com

2021-10-09 18:05:58 842

原创 flink read 带Kerberos的hbase

package com.hx.test;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.configuration.Configuration;import org.apache.flink.streaming.api.datastream.DataStream;imp

2021-10-09 17:58:01 562

原创 hbaes withStartRow and setStartRow

hbase 2.0版本及以上 废弃了 scan 扫表时候的setStartRow 和 setStopRow,更改为对应的withStartRow 和withStopRow 两方法 。//第一个参数为scan扫表开始的rowkey,第二个参数,若为true,则包含rowkey为1打头的;若为false,则不包含rowkey为1打头的数据。withStartRow(Bytes.toBytes("1"),ture)//可以只传第一个参数,若传第二个参数,默认为ture,包含rowkey为1打头的所有.

2021-10-09 17:38:23 1104

原创 hive 新增字段

alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称') cascade;

2021-08-27 14:29:14 95

原创 mysql 导入 csv 文件数据的命令

mysql.exe--local-infile=1-h60.205.11.11-uroot-pxxxxxx-P3306LOADDATALOCALINFILE'文件名'INTOTABLE databaseName.tableName;

2021-08-25 18:52:14 87

原创 spark 写入 es

<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-hadoop</artifactId> <version>7.10.2</version> </dependency> <dependency&gt...

2021-08-25 15:26:57 433

原创 sparkSql 直接执行外部 sql/hql文件 升级篇2 udf函数

package hx.comimport hx.com.UDF.{JudgeLicense, SqlDataSource, UDF, UuidUdf}import hx.com.constant.PropConstantsimport hx.com.util.PropertieUtilimport org.apache.hadoop.security.UserGroupInformationimport org.apache.log4j.Loggerimport org.apache.spar

2021-08-25 15:21:35 389

原创 es和hive外部表映射

CREATE EXTERNAL TABLE `dws.外表name`( `id` string COMMENT 'from deserializer', `create_by` string COMMENT 'from deserializer', `create_at` timestamp COMMENT 'from deserializer', `update_by` string COMMENT 'from deserializer', ...

2021-08-25 15:10:31 1040

原创 sparkSql 直接执行外部 sql/hql文件 较上篇的升级篇

升级处理了sql文件中文注册乱码问题yarn-client模式,local模式,配置文件直接在本地就可以直接运行了。yarn-cluster在读取配置文件的时候让运维兄弟在yarn的nodeManager所有计算节的磁盘上挂载了一个hdfs共享盘(resourceManager节点上没挂),直接把配置文件和sql文件丢进去,直接cluster模式跑就和client,local模式一样。===================pom文件如下=============<?xml versio

2021-06-30 19:07:30 568

原创 sparkSql 直接执行外部 sql/hql文件

话不多说上代码:======idea 部分代码======begin=====import org.apache.hadoop.security.UserGroupInformationimport org.apache.spark.sql.SparkSessionimport java.io.Fileimport java.util.Propertiesimport scala.io.{BufferedSource, Source}/*** ods层数据清洗落地到dwd层*/..

2021-06-29 21:26:29 1590 1

原创 21/06/09 10:40:59 ERROR tool.JobTool: Error parsing arguments to the job-specific tool: org.apache.

21/06/09 10:40:59 ERROR tool.JobTool: Error parsing arguments to the job-specific tool:org.apache.commons.cli.MissingArgumentException: Missing argument for option: hbase-row-key

2021-06-09 11:49:15 328

原创 kafka 0.10.0 ERROR internals.ConsumerCoordinator: Offset commit failed.

kafka,spark版本:kafka 0.10.0 spark2.3.0ERROR internals.ConsumerCoordinator: Offset commit failed.org.apache.kafka.clients.consumer.RetriableCommitFailedException: Commit offsets failed with retriabl...

2019-12-02 17:16:45 1167

原创 phantomjs 安装教程

参考网址:https://blog.csdn.net/weixin_42657103/article/details/81543113 安装selenium  后就可以用Python 操作phantomjs啦后面有pip install selenium  //自动化测试的,

2018-12-01 16:39:18 158

原创 git 命令大全。。。点个赞呗

Git的四个组成部分img1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区   git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untrac...

2018-11-07 09:43:44 134

原创 python3.7 安装scrapy anaconda

1本地没有直接安装python3.7是先安装了anaconda,直接安装了python3.7,然后在anaconda中安装了scrapy只在anaconda中安装完不算完 2  在http://www.lfd.uci.edu/~gohlke/pythonlibs/有很多用于windows的编译好的Python第三方库,我们下载好对应自己Python版本的库即可。...

2018-11-01 17:43:40 710

原创 Anaconda各种版本下载

官网首页总是现实最新版本的anaconda,如果我们想下载旧版本就得找半天,所有版本在这个网站都可以下载:https://repo.continuum.io/archive/https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ (推荐,清华大学开源软件镜像站进行下载并配置镜像)Anaconda3-4.3.0.1-Windows-x86...

2018-10-26 09:40:58 1246

原创 impala sql 脱敏 数据大约1亿1千万 + 800多万

impala sql 脱敏   数据大约1亿1千万 强大的impala 几分钟 就搞定了,一直跟担心会吧集群跑崩掉,想多了,impala + kudu 结构背景:修改生产,用户表8百万数据,订单表1亿一千万数据impala sql 发现,一个汉字的长度是3(不固定,有的一个汉字长度更长)直接对全表数据的进行update操作,对已经有脱敏数据,直接跳过 手机号脱敏UPDAT...

2018-09-26 15:16:04 1330

原创 next seq

package xiangqi_spark.YeWuimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import xiangqi_spark.util_scala.YearMonthDay2Timestampimport scala.collection.mutableimp...

2018-06-14 14:42:07 339

原创 删除hive的分区元数据,spark总是读取到已经删掉的分区

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://testcluster/user/hive/warehouse/....问题分析在hive中执行show partitions test,查看test表对应的所有分区。看了下之前添加过的所有分区,发现有个分区对应的hdfs目录不存在了(...

2018-05-23 11:00:35 4706

原创 kafka重新分配partition

今天kafka测试环境中机器磁盘告警,占用率超过了80%,原来是某一个topic的partition为1,只往一台机器上写数据,造成kafka集群空间使用不均。下面主要使用kafka-topics.sh和kafka-reassign-partitions.sh来解决问题。推荐使用kafka manager来管理kafka集群。修改topic的partitions1./bin/kafka-topic...

2018-03-19 17:25:09 772

原创 phoenix for cdh5.9 搭建以及注意点

phoenix 和CDH整合,大数据

2017-11-23 14:03:10 1146 2

原创 Linux 交换内存处理 CDH 交换内存报错

设置swap交换内存:【关闭Linux的swap交换内存】操作:sysctl -w vm.swappiness=0查看交换内存:cat /proc/sys/vm/swappiness linux系统会用内存做很 多的buffer和cache,所以经常会看到内存用完了,其实这里面可能只有很少的一部分是程序用到的。当内存不足的时候,系统有两种选择,一

2017-11-13 17:08:06 2110

原创 spark on hive 写入hdfs 用csv格式

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: csv. Please find packages at http://spark-packages.org        at org.apache.spark.sql.execution.datasources.R

2017-10-25 20:45:09 1993

原创 spark on hive 写入hdfs

Exception in thread "main" java.io.IOException: No FileSystem for scheme: http        at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2795)        at org.apache.hadoop.fs.Fil

2017-10-25 18:34:48 720

转载 hive中的NULL(hive空值处理)

66666666

2017-10-19 19:47:04 1359

原创 java 覆盖写入

java 覆盖写入

2017-10-19 15:27:14 853

原创 java 读取文件

java 读取文件

2017-10-19 15:06:37 260

原创 java 追加内容写入本地文件

直接上代码:可以直接代码copypackage utils;import java.io.IOException;import java.io.RandomAccessFile;/** * 想本地文件中写入数据 */public class WriteFileToLocal { /** * 向本地文件中写入数据 * @param fileNa

2017-10-19 14:45:12 1192

apriori.py

def find_rule(d, support, confidence, ms=u'--') 本来想互联网精神免费分享的,结果平台最少要1积分,就设置了1积分

2018-11-29

sparkStreaming消费数据不丢失

sparkStreaming消费数据不丢失,sparkStreaming消费数据不丢失

2017-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除