自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 SparkSQL中4个排序的区别

ORDER BY和SORT BY和DISTRIBUTE BY和CLUSTER BY的区别

2023-01-28 18:17:14 1709

原创 Hive常用的UDF开发

Hive常用的UDF此处整理了下使用到的UDF函数,还有很多后面陆陆续续会更新上来。代码写的不完善,后面我也会继续跟进。代码部分已经上传到github了,点击此处目录Hive常用的UDFUDFudf_args_max : 返回输入参数列表的最大值udf_args_max_index : 返回输入参数列表的最大值对应的下标(从0开始)udf_args_min : 返回输入参数列表的最小值对应的下标(从0开始)udf_args_min_index : 返回输入参数列表的最小值udf_array_conc

2021-12-16 14:57:47 1398

原创 Dbeaver Failed to create the java Vitual Machine

Mac OS Big Sur打不开DbeaverFailed to create the java Vitual MachineFailed to create the java Vitual Machine相信很多同学都升级了Mac os big sur。结果发现Dbeaver 打不开了。虽然有DataGrip做备用。但是还是习惯DB。晚上看了另一位博主都解决方案。是用 -vm指定了JRE的路径,但是发现没有用。考虑到是逐行解析的。参数传递应该有顺序。注意一下VM参数的顺序。成功打

2020-11-18 10:41:12 1429 3

原创 阿里EMR的elasticsearch版本冲突

记录一次在阿里EMR的踩的坑因为有个需求需要将数据写入到es,采用的方式是通过spark将dataframe写入es进行upsert操作。使用的版本是 Spark-2.4.3 ElasticSearch-7.4.0打好包后上传值服务器,调试运行。代码太多,度娘一搜便是。使用local模式调试,尽然出现了问题。好样的,肯定是版本冲突了。开始查原因,我知道EMR在 /opt/apps/extra_jars/目录下配置几个额外的包,其中包含了es-hadoop-6.3.2的,但我提交但时候并没

2020-06-18 11:30:12 310

原创 SparkStreaming实现Exactly Once语义(将offset交给zk托管)

声明下使用的框架使用的版本spark - 2.3.4spark-streaming-kafka-0-10_2.11 - 2.3.4zookeeper - 3.4.14kafka - 2.3.1看了下源码好多老的API都不能使用了。KafkaCluster不存在了,ZKUtils 也 替换为 AdminClient 了。接着上次实现的自定义分区消费来做Exactly Once官网...

2020-01-17 16:20:11 152

原创 DirectDStream自定义起始偏移量读取(基于spark-streaming-kafka-0.10 + Spark 2.3.4)

基于spark-streaming-kafka-0.10的自定义消费示例spark版本-2.3.4spark在2.3.0后已经不推荐使用0.8连接器的。0.10连接器也不支持receiver stream。但是在学习的过程中,发现新版本的写法与老版本还是出入很大的。如何自定义分区开始读取的偏移量,如何将offset与zookeeper同步,查了下相关资料也比较少,官网对与这块内容也是简单一...

2020-01-16 16:34:01 512

原创 使用scala的breeze线性代数库做主成分分析(PCA)

import scala.collection.mutable.ArrayBufferimport breeze.linalg.{DenseMatrix, _}import scala.collection.immutableobject demo { def main(args: Array[String]): Unit = { /****************...

2019-08-15 18:45:49 429

原创 基于spark源码做ml的自定义功能开发

spark的ml中已经封装了许多关于特征的处理方式:极大方便了我们在做数据预处理时的使用。但是这明显不够,在机器学习的领域中,还有许许多多的处理方式,这些都没有存在于feature包中。那要如何去实现?比较简单的方式:spark ml本质上就是对dataframe的操作,可以在代码中处理df以实现该功能。但是实际应用中发现,这样的方式并不好用,我们所做的处理,纯粹是对df的转换提取等操...

2019-06-19 14:38:23 598

原创 使用hadoop的压缩方式进行压缩和解压

压缩算法及其编码/解码器压缩格式对应的编码/解码器DEFLATEorg.apache.hadoop.io.compress.DefaultCodecgziporg.apache.hadoop.io.compress.GzipCodecbziporg.apache.hadoop.io.compress.BZip2CodecSnappyorg.a...

2019-05-23 14:53:04 467

翻译 presto的安装部署

Presto是什么?Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理。作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto不仅可以访问HDFS,也可以操作不同的数据源,包括:RDBMS和其他的数据源(例如:C...

2019-05-16 18:16:38 10645

原创 hive开放平台设计--使用CUSTOM方式实现hiveserver2的登录管理

HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作,是一个比较方便并且安全的方式。但是自己的开发集群上面为了方便开发都是做了不做权限监控的设定,即设定<property> <name>hive.security.authorization.enabled</name> <value>f...

2019-04-25 20:57:52 1030 1

原创 IDEA远程提交运行HDFS的Spark程序--优化篇2

上次修改spark.yarn.cache.confArchive参数无效。我就换了思路来做。源码中关于创建这部分的代码如下:private def createConfArchive(): File = { val hadoopConfFiles = new HashMap[String, File]() // Uploading $SPARK_CONF_DIR/log4j...

2019-01-17 17:19:02 2944 6

原创 IDEA远程提交运行HDFS的Spark程序--优化篇1

之前说到,我可以直接让spark程序去引用HDFS上的jar包路径,解决因为上传依赖jar包导致的时间过长的问题。上次还有一个遗留问题,我必须要在hadoop-yarn-common-2.6.4.jar包下的 yarn-default.xml中修改hostname的值才可以正常提交,这显然不符合正常使用的要求,我配置了那么多信息,难道必须在各个jar包重新设置吗?我重新观察了以下正常spark...

2019-01-17 15:38:41 566

原创 IDEA远程提交运行HDFS的Spark程序

之前提交运行spark程序,都是通过spark-submit提交运行的。但是能不能再IDEA中就执行submit运行程序呢,以前用过一种方式,就是通过远程ssh访问(远程ssh可以通过JSch实现),通过liunx命令去执行,但是这个显然不是我期望的。我的spark程序都是提交给yarn运行的,如果程序直接与yarn通信,按spark-submit源码中的提交方式去做,是不是也能实现呢。参...

2019-01-16 18:42:23 2311 3

翻译 SparkConf参数

sparkconf中的一些参数,参考了sparkconf源码中的解释,以及摘抄了几位博主的笔记,整合了下,方便使用。参数意义spark.yarn.tags逗号分隔的字符串,传递YARN应用tags。其值将出现在YARN Application Reports中,可以用来过滤和查询YARN 应用。spark.yarn.maxAppAttempts提交应用最大尝试次...

2019-01-16 10:20:21 8282

原创 在集成flink和kafka时遇到的问题

addsource(flinkkafka10出错)如果kafka版本为0.8或者0.9导入flink-connector-kafka-0.8_2.11-1.6.1.jar/flink-connector-kafka-0.9_2.11-1.6.1.jar和flink-connector-kafka-base_2.11-1.6.1.jar 即可。如果kafka版本为0.10出去flink...

2018-10-30 17:12:28 2921

kaggle中的stumbleupon数据集,机器学习资源(包含train,testsampleSubmission,raw_content)

kaggle中的stumbleupon数据集,需要许多步骤才能下载到,上传方便各位下载

2019-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除