- 博客(11)
- 收藏
- 关注
原创 Spark拉取es数据为parquet文件映射到Hive
package com.lzimport org.apache.spark.sql.SparkSessionimport org.elasticsearch.hadoop.cfg.ConfigurationOptionsimport scala.collection.Mapobject Es2Hive { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder()
2021-09-08 11:52:04 430 1
原创 Hive之向一个array中装载多个struct
CREATE external TABLE `mongodb_dingtalk.mongodb_test`(`companyName` string,`sources` array<struct<contact:string,contactJob:string,site:string,source:string,sourceHref:string>>)STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler'WITH SE
2021-09-06 11:44:07 282
原创 UDF中之正则报错 java.lang.StackOverflowError
报错如下:Exception in thread "main" java.lang.StackOverflowError at java.util.regex.Pattern$Loop.match(Pattern.java:4779) at java.util.regex.Pattern$GroupTail.match(Pattern.java:4731) at java.util.regex.Pattern$Curly.match0(Pattern.java:4286) at java.util
2021-08-23 10:43:03 342
原创 Flink-CDC
package com.lz;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;import org.apache.flink.table.api.TableResult;import org.apache.flink.table.api.bridge.java.StreamTableEn
2021-08-20 10:23:54 199
原创 记录hive中sqoop-export 的 Error during export:
原因是数据中有中文,而数据库表编码不支持,在hive导入mysql时设置编码集。drop table companynameandsource;create table companynameandsource( companyname text, source text)DEFAULT CHARSET=utf8;
2021-08-12 11:58:09 149
原创 Presto时间和日期函数及运算符、日期时间比较
日期和时间运算符官方文档链接:https://prestodb.io/docs/current/functions/datetime.html
2021-07-13 15:51:17 1062
转载 Hive高阶分析函数
GROUPINGSETS示例:实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。数据:±---------±---------±–+|year_month|date |pv |±---------±---------±–+|2015-04 |2015-04-12|10 ||2015-03 |2015-03-10|2 ||2015-03 |2015-03-10|9 ||2015-04
2021-07-02 13:24:35 343
原创 记录一个开发过程中HBase的Rowkey设计思路
public class Test01 { public static void main(String[] args)throws Exception { // 获得客户端 //1. 读取配置文件 Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "master"); BasicConfigurato
2021-06-11 16:36:32 203 2
原创 Hadoop MapReduce与Spark对比,真是太通俗易懂了
与Hadoop MapReduce相比Spark的优势如下:中间结果:基于MapReduce的计算引擎通常将中间结果输出到磁盘上,以达到存储和容错的目的。由于任务管道承接的缘故,一切查询操作都会产生很多串联的Stage,这些Stage输出的中间结果存储于HDFS。而Spark将执行操作抽象为通用的有向无环图(DAG),可以将多个Stage的任务串联或者并行执行,而无须将Stage中间结果输出到HDFS中。执行策略: MapReduce 在数据Shufle之前,需要花费大量时间来排序,而Spark不需要
2021-06-11 16:30:17 800
原创 Hive通过函数对数据的拆分
记录一个数据拆分案例select id,userid,from_unixtime(cast(adddate/1000 as bigint),'yyyy-MM-dd') as adddate,from_unixtime(cast(updatedate/1000 as bigint),'yyyy-MM-dd') as updatedate,get_json_object(tag1,'$.id') as setting_id,-- get_json_object(tag1,'$.enable') as
2021-05-17 10:38:41 1031
原创 cookie和session的区别
存储位置不同:session 存储在服务器端;cookie 存储在浏览器端。安全性不同:cookie 安全性一般,在浏览器存储,可以被伪造和修改。容量和个数限制:cookie 有容量限制,每个站点下的 cookie 也有个数限制。存储的多样性:session 可以存储在 Redis 中、数据库中、应用程序中,session的存在主要减少操作数据库的压力;而 cookie 只能存储在浏览器中。session的底层实现浏览器访问服务器,服务器会创建一个cookie和一个session,并通过cook
2021-01-21 13:10:02 137
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人