![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
牧夫
这个作者很懒,什么都没留下…
展开
-
DataWorks中日期格式化
DataWorks文档中说明了可以用$[mm]格式化月份,比如2023年1月7日月份格式化。但是如果希望月份返回1, 格式该怎么写呢?我经过尝试,发现可以了一下文档中未说明的格式。比如2023年1月7日这个日期,原创 2023-07-20 10:37:34 · 335 阅读 · 0 评论 -
clickhouse中数组的使用
需求如下:表flight_sale_history: discount: 折扣 air_code: 航班号表discount_cabin: air_code: 航班号 discount: 折扣 cabin: 舱位数组要求对flight_sale_history中的每一条记录,求出discount_cabin中折扣最接近的舱位数组的第一个舱位。想法:1. 将discount_cabin变成每个air_code一条记录,...原创 2021-09-14 00:54:54 · 3034 阅读 · 0 评论 -
一个java版本的复杂spark例子
首先说一下这个spark程序的目的。这个程序是要求对网站收到的http请求数据计算一些特征值,要求每10秒钟计算一次最近2小时的数据的特征值。这就需要用到spark的滑动窗口运算了。数据是从topic为app的kafka中读取,计算出来的特征值发往topic为app_FEATURE的kafka中。代码如下:public class FeatureAccumulator { public static void main(String[] args) { if (args.lengt原创 2020-07-17 16:24:02 · 255 阅读 · 0 评论 -
spark运行出现Unsupported major.minor version 52.0
spark程序用local模式测试通过后,打包后以yarn cluster 模式spark-submit到集群中spark-submit --jars /root/json-simple-1.1.1.jar --class com.nebula.app.ml.FeatureAccumulator --master yarn --deploy-mode cluster /root/accumulator.jar结果出现Unsupported major.minor version 52.0原创 2020-07-17 16:12:00 · 740 阅读 · 0 评论 -
spark中变量名重用要小心
在spark程序中,重用变量名要特别小心。比如下面的程序JavaPairDStream<String, Serializable> result1 = data.mapToPair(...);result1 = result1.filter(...);result1 = result1.union(other);结果极有可能是错的。估计和DAG的构造方法有关,DAG有可能是用变量名来构造计算图的,同样的变量名在不同的地方含义不一样,但是DAG区分不了。当然这只是我猜的,没得到证原创 2020-07-17 15:50:07 · 172 阅读 · 0 评论 -
hive中字段注释中中文出现乱码的问题
在hive中创建一个带中文注释的表,如create table mytest4(id int COMMENT '学号',name string COMMENT '姓名');然后用Hive JDBC去读表信息时候,取出来的字段注释是乱码。hive的表信息存在mysql库中。这个问题的解决需要做到下面几点:1. 数据库hive的编码设为UTF82. 将表co原创 2017-05-14 19:19:25 · 1368 阅读 · 0 评论 -
phoenix的URL使用
phoenix提供了对hbase的SQL访问支持。一般客户端应该使用phoenix-xxx-client.jar。其driver和url为org.apache.phoenix.jdbc.PhoenixDriverjdbc:phoenix:host:2181问题在于,phoenix-xxx-client.jar很大,含有大量第三方类,从而很容易引起类冲突。所以一个更好的方法是使用phoen原创 2017-07-05 16:15:02 · 5513 阅读 · 0 评论 -
dubbo转Spring Cloud
一个系统原来是使用dubbo的,现在想把微服务架构转为Spring Cloud。但是这个系统已经在使用中了,希望一步步的把dubbo服务一个个的转为Spring Cloud,转换一个使用一个,转换的过程中尽量少影响原系统。比如现在要转换dubbo服务D1成Spring Cloud服务C1,D1又需要调用dubbo服务D2。怎么办呢?如果同时转换D1,D2的话,D2可能又会调用D3,这样可能引用一大...原创 2018-05-30 20:30:17 · 5044 阅读 · 0 评论