晓晓121-CSDN博客

原创 Spark拉取es数据为parquet文件映射到Hive

package com.lzimport org.apache.spark.sql.SparkSessionimport org.elasticsearch.hadoop.cfg.ConfigurationOptionsimport scala.collection.Mapobject Es2Hive { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder()

2021-09-08 11:52:04 430 1

原创 Hive之向一个array中装载多个struct

CREATE external TABLE `mongodb_dingtalk.mongodb_test`(`companyName` string,`sources` array<struct<contact:string,contactJob:string,site:string,source:string,sourceHref:string>>)STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler'WITH SE

2021-09-06 11:44:07 282

原创 UDF中之正则报错 java.lang.StackOverflowError

报错如下：Exception in thread "main" java.lang.StackOverflowError at java.util.regex.Pattern$Loop.match(Pattern.java:4779) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4731) at java.util.regex.Pattern$Curly.match0(Pattern.java:4286) at java.util

2021-08-23 10:43:03 342

原创 Flink-CDC

package com.lz;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;import org.apache.flink.table.api.TableResult;import org.apache.flink.table.api.bridge.java.StreamTableEn

2021-08-20 10:23:54 199

原创记录hive中sqoop-export 的 Error during export:

原因是数据中有中文，而数据库表编码不支持，在hive导入mysql时设置编码集。drop table companynameandsource;create table companynameandsource( companyname text, source text)DEFAULT CHARSET=utf8;

2021-08-12 11:58:09 149

原创 Presto时间和日期函数及运算符、日期时间比较

日期和时间运算符官方文档链接：https://prestodb.io/docs/current/functions/datetime.html

2021-07-13 15:51:17 1062

转载 Hive高阶分析函数

GROUPINGSETS示例：实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。数据：±---------±---------±–+|year_month|date |pv |±---------±---------±–+|2015-04 |2015-04-12|10 ||2015-03 |2015-03-10|2 ||2015-03 |2015-03-10|9 ||2015-04

2021-07-02 13:24:35 343

原创记录一个开发过程中HBase的Rowkey设计思路

public class Test01 { public static void main(String[] args)throws Exception { // 获得客户端 //1. 读取配置文件 Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "master"); BasicConfigurato

2021-06-11 16:36:32 203 2

原创 Hadoop MapReduce与Spark对比，真是太通俗易懂了

与Hadoop MapReduce相比Spark的优势如下：中间结果:基于MapReduce的计算引擎通常将中间结果输出到磁盘上，以达到存储和容错的目的。由于任务管道承接的缘故，一切查询操作都会产生很多串联的Stage,这些Stage输出的中间结果存储于HDFS。而Spark将执行操作抽象为通用的有向无环图(DAG),可以将多个Stage的任务串联或者并行执行，而无须将Stage中间结果输出到HDFS中。执行策略: MapReduce 在数据Shufle之前，需要花费大量时间来排序，而Spark不需要

2021-06-11 16:30:17 800

原创 Hive通过函数对数据的拆分

记录一个数据拆分案例select id,userid,from_unixtime(cast(adddate/1000 as bigint),'yyyy-MM-dd') as adddate,from_unixtime(cast(updatedate/1000 as bigint),'yyyy-MM-dd') as updatedate,get_json_object(tag1,'$.id') as setting_id,-- get_json_object(tag1,'$.enable') as

2021-05-17 10:38:41 1031

原创 cookie和session的区别

存储位置不同：session 存储在服务器端；cookie 存储在浏览器端。安全性不同：cookie 安全性一般，在浏览器存储，可以被伪造和修改。容量和个数限制：cookie 有容量限制，每个站点下的 cookie 也有个数限制。存储的多样性：session 可以存储在 Redis 中、数据库中、应用程序中，session的存在主要减少操作数据库的压力；而 cookie 只能存储在浏览器中。session的底层实现浏览器访问服务器，服务器会创建一个cookie和一个session，并通过cook

2021-01-21 13:10:02 137

langzi_0371的博客