自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Spark拉取es数据为parquet文件映射到Hive

package com.lzimport org.apache.spark.sql.SparkSessionimport org.elasticsearch.hadoop.cfg.ConfigurationOptionsimport scala.collection.Mapobject Es2Hive { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder()

2021-09-08 11:52:04 405 1

原创 Hive之向一个array中装载多个struct

CREATE external TABLE `mongodb_dingtalk.mongodb_test`(`companyName` string,`sources` array<struct<contact:string,contactJob:string,site:string,source:string,sourceHref:string>>)STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler'WITH SE

2021-09-06 11:44:07 263

原创 UDF中之正则报错 java.lang.StackOverflowError

报错如下:Exception in thread "main" java.lang.StackOverflowError at java.util.regex.Pattern$Loop.match(Pattern.java:4779) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4731) at java.util.regex.Pattern$Curly.match0(Pattern.java:4286) at java.util

2021-08-23 10:43:03 314

原创 Flink-CDC

package com.lz;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;import org.apache.flink.table.api.TableResult;import org.apache.flink.table.api.bridge.java.StreamTableEn

2021-08-20 10:23:54 181

原创 记录hive中sqoop-export 的 Error during export:

原因是数据中有中文,而数据库表编码不支持,在hive导入mysql时设置编码集。drop table companynameandsource;create table companynameandsource( companyname text, source text)DEFAULT CHARSET=utf8;

2021-08-12 11:58:09 139

原创 Presto时间和日期函数及运算符、日期时间比较

日期和时间运算符官方文档链接:https://prestodb.io/docs/current/functions/datetime.html

2021-07-13 15:51:17 1015

转载 Hive高阶分析函数

GROUPINGSETS示例:实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。数据:±---------±---------±–+|year_month|date |pv |±---------±---------±–+|2015-04 |2015-04-12|10 ||2015-03 |2015-03-10|2 ||2015-03 |2015-03-10|9 ||2015-04

2021-07-02 13:24:35 330

原创 记录一个开发过程中HBase的Rowkey设计思路

public class Test01 { public static void main(String[] args)throws Exception { // 获得客户端 //1. 读取配置文件 Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "master"); BasicConfigurato

2021-06-11 16:36:32 134 2

原创 Hadoop MapReduce与Spark对比,真是太通俗易懂了

与Hadoop MapReduce相比Spark的优势如下:中间结果:基于MapReduce的计算引擎通常将中间结果输出到磁盘上,以达到存储和容错的目的。由于任务管道承接的缘故,一切查询操作都会产生很多串联的Stage,这些Stage输出的中间结果存储于HDFS。而Spark将执行操作抽象为通用的有向无环图(DAG),可以将多个Stage的任务串联或者并行执行,而无须将Stage中间结果输出到HDFS中。执行策略: MapReduce 在数据Shufle之前,需要花费大量时间来排序,而Spark不需要

2021-06-11 16:30:17 778

原创 Hive通过函数对数据的拆分

记录一个数据拆分案例select id,userid,from_unixtime(cast(adddate/1000 as bigint),'yyyy-MM-dd') as adddate,from_unixtime(cast(updatedate/1000 as bigint),'yyyy-MM-dd') as updatedate,get_json_object(tag1,'$.id') as setting_id,-- get_json_object(tag1,'$.enable') as

2021-05-17 10:38:41 989

原创 cookie和session的区别

存储位置不同:session 存储在服务器端;cookie 存储在浏览器端。安全性不同:cookie 安全性一般,在浏览器存储,可以被伪造和修改。容量和个数限制:cookie 有容量限制,每个站点下的 cookie 也有个数限制。存储的多样性:session 可以存储在 Redis 中、数据库中、应用程序中,session的存在主要减少操作数据库的压力;而 cookie 只能存储在浏览器中。session的底层实现浏览器访问服务器,服务器会创建一个cookie和一个session,并通过cook

2021-01-21 13:10:02 125

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除