- 博客(38)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 nginx代理ws
location ^~ /proxy { proxy_pass http://ws服务器的ip:ws的端口; proxy_http_version 1.1; log_not_found off; proxy_set_header Host $http_host; ...
2021-10-11 11:40:21 3512 1
原创 离线数仓
数仓中表的种类及其概念一般表分为两个类型:维度表和事务表拉链表制作:1.初始化:利用update_time作为dw_start_date,9999-12-31作为dw_end_date2.更新历史数据:将业务mysql 中更新时间为当天的数据抽取到系统,然后将拉链表关联当天数据,将拉链表更新如果是周期性事实表,相对于前面的拉链表,拉链表应该按天分区第一次全量导入数据应该开启动态分区,根据cre...
2021-05-17 22:13:15 192
原创 flink exactly-once
flink 是通过barrier 和checkpoint 机制保证exactly-once,那之前有个问题一直困扰,在2次checkpoint之间的数据,岂不是会被重复消费?确实是这样,所以flink 引入了两阶段提交,在两次checkpoint之间的数据先预提交,而不会真正sink,如果重启后重复消费也不会有问题。...
2020-10-12 16:29:47 157
原创 孙金城flink视频笔记-flink优势特点 3
端到端 exactly-onceexactly once不是指一个数据只被处理一次,而是指一个数据只影响结果一次exactly once只能保证内部算子,不能保证外部存储sink的exactly once。这时需要
2020-07-20 21:09:01 185
原创 孙金城flink视频笔记-flink优势特点
1.流计算乱序问题无限流count不会有乱序问题,分组统计才会有乱序问题watermark是一个时间戳,标识了小于这个时间戳的事件都已经到达了watermark水印在源位置发射,通过拓扑中的运算符传播watermark也是streamElement 和普通数据一起在算子之间传递(可以看成一条数据)watermak出发窗口计算,那么long.Max_value值会在公诉算子后续没有任何数据了watermark生成方式:1.watermark在数据源位置生成 ..
2020-06-22 21:52:22 485 1
原创 full join 的坑
发现full join 导致数据发散的问题select * from temp.test_student name age classid ---- --- ------- a 2 1 b 2 2 c 2 1 select * from temp.test_classname age classid ---- --- ------- c 2 1 ...
2020-06-05 08:34:54 1217
原创 druid玩玩
1.druid 有单机和集群模式,单机又分不同的模式匹配不同的服务器资源 ,启动的时候报2181端口已经被占用,按照提示export DRUID_SKIP_PORT_CHECK=1就好了2.单机模式下Druid服务一起运行单个ZK实例。也可以选择单独部署ZK。怎么配置外部zk实例呢?首先将/conf/supervise/single-server/micro-quickstart.conf中...
2020-05-13 13:59:42 238
原创 druid cluster安装
修改配置文件1.druid.host=cdhpreview01(当前机器host ,不能为localhost 因为多个节点之前都是localhost无法识别)2.druid.extensions.loadList=["druid-parquet-extensions", "mysql-metadata-storage","druid-hdfs-storage", "druid-kafka-indexing-service", "druid-datasketches"] 增加"druid-parq..
2020-05-13 13:59:20 149
原创 hive 创建函数
create function transformstogaussxy as "udf.GaussXYDealHiveUdf" using jar "hdfs://cdhdev01:8020/*/*-1.0-SNAPSHOT.jar"
2020-03-17 22:45:32 249
原创 csv导入hive 乱码
1.hive的编码和csv编码不一致导致,要不改hive编码,一般改csv编码,用记事本打开 然后保存utf-8格式,注意不要用带dom格式2.csv默认逗号分隔符,可以将hive 分隔符改为逗号 也可以改csv分隔符...
2019-11-15 19:07:38 802
原创 HCatalog
概观HCatalog是Hadoop的表和存储管理层,它使使用不同数据处理工具(Pig,MapReduce)的用户能够更轻松地在网格上读取和写入数据。HCatalog的表抽象为用户提供了Hadoop分布式文件系统(HDFS)中数据的关系视图,并确保用户不必担心其数据的存储位置或格式(RCFile格式,文本文件,SequenceFiles或ORC文件)。HCatalog支持以可以写入SerDe...
2019-09-29 11:50:36 583
原创 hive wiki阅读
hive 由HCatalog 和WebHCat组成HCatalog是Hadoop的表和存储管理层,允许使用不同数据处理工具(包括Pig和MapReduce)的用户更容易地在网格上读写数据。WebHCat提供了一个服务,您可以使用它来运行Hadoop MapReduce(或yarn)、Pig和Hive作业。您还可以使用HTTP (REST样式)接口执行Hive元数据操作。hive str...
2019-09-27 10:13:31 410
原创 shell遍历日期范围
#抽数开始日期startDate=$4#抽数结束日期endDate=$5startSec=`date -d "$startDate" "+%s"`endSec=`date -d "$endDate" "+%s"`for((i=$startSec;i<=$endSec;i+=86400))do current_day=`date -d "@$i" "+%Y%m%d"` ...
2019-08-30 09:00:03 691
原创 sqoop 导数
hive 导出mysqlsqoop export --connect "jdbc:mysql://****" --username "aaa" --password "bbb" --table a--export-dir "/user/hive/warehouse/adl.db/--input-fields-terminated-by '\001' --update-key bp_emp...
2019-08-30 08:57:47 599
原创 sql left join 中on 和where 条件的区别
首先 ,我们有两张表表1,学生表 name age classid 1 张三 18 1 2 李四 17 2 3 王五 18 2 4 赵本六 17 3 5 洪七公 18 3 6 王八 17 4 表2,班级表 id ...
2019-08-09 13:54:00 393
原创 atlas 安装
1.启动报错 文件不存在s-server/bin/atlas_start.py' returned 255. Exception: [Errno 2] No such file or directoryTraceback (most recent call last):File "/usr/hdp/current/atlas-server/bin/atlas_start.py", li...
2019-04-02 11:39:28 984
原创 hadoop 元数据管理 atlas
Atlas是一组可伸缩和可扩展的核心基础治理服务——使企业能够有效地满足Hadoop中的遵从性需求,并允许与整个企业数据生态系统集成。Apache Atlas为组织提供了开放的元数据管理和治理功能,以构建数据资产目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。type system1.type type类似java 的类,定...
2019-03-21 09:03:37 846
原创 spring 面试装逼
1.注入类型构造器注入和方法注入,一般必须的熟悉选择构造器注入,可选属性选择方法注入。官方建议构造器,不会造成运行时null错误。但是过多的构造参数是糟糕的代码,说明该类太多功能,最好能拆分。2.循环依赖问题两个构造注入a b 相互依赖会造成循环依赖问题,解决的方法是采用方法注入。3.depens-on 会强制依赖的bean 先初始化4.lazy-init 延迟初始化5.a...
2019-01-27 17:07:32 155
原创 hive 解析json 数组
select c.goodsId ,c.itemName,c.num from dm_ebiz.rigel_groupbuy_join alateral view explode(split(regexp_replace(regexp_extract(a.items_sales_detail,'^\\[(.+)\\]$',1),'\\}\\,\\{', '\\}\\|\\|\\{'),'\\|\...
2019-01-08 21:48:13 682
原创 presto分页
select * from ( select row_number() over (order by page_field) as row, t.* from (select distinct source as page_field from mkt_register_wjw_all where 1=1 ) t) t where row >= 1 and row < 5
2019-01-04 12:00:34 2882
原创 left join 的一些问题,不一定以左表为准,数据行数减少或者数据增多
left join 完,行数一定等于左表行数吗? 不一定!!实验如下:SELECT * FROM hdd_test1 a LEFT JOIN hdd_test2 b ON a.a_id = b.b_id LIMIT 1448 rows (134ms)id created_at updated_at a_id id created_at u...
2018-11-05 20:57:25 30684 4
原创 队列(Queue)
接口:Queue实现类:ArrayBlockingQueue :由数组实现的有界阻塞队列 DelayQueue: Delayed元素的一个无界阻塞队列 LinkedBlockingQueue:基于链接节点的范围任意的队列,默认容量Interger.MAX_VALUE,先进先出 PriorityBlockingQueue:无界阻塞队列,与PriorityQueue相同的顺序 Sync...
2018-09-11 20:24:44 133
原创 kylin总结(一些重要概念以及基础优化)
Apache Kylin 是Hadoop大数据平台的一个开源OLAP引擎。采用多位立方体预计算技术,可以将大数据SQL查询速度达到亚秒级别。其实就是数据立方的一种实现,可以参考韩家伟的《数据挖掘·概念与技术》里面对数据立方有详细介绍。简单来说数据立方就是以空间换时间,通过定义一系列的纬度,对每个纬度的组合进行预先计算并存储。有N个纬度,就会有2的N次种组合。所以最好控制好纬度的数量,因为存储量...
2018-09-09 16:54:43 1323
原创 thinking in java 阅读笔记 第七章 多形性
1. 为什么要”上溯造型”? 比如有乐器(Instrument)和人(Person)两个类,人有演奏乐器这一方法( play(Instrument i) ).那么如果没有上溯造型,那么,如果乐器有n种子类,如 吉他、钢琴、贝斯,那么,在Person类中就要定义n种方法,而有了上溯造型,就只需要一个方法。减少代码量。
2017-06-29 10:37:50 316
原创 Certificates does not conform to algorithm constraints
跟分公司调试https接口时,发现java报错.Exception in thread "main" javax.net.ssl.SSLHandshakeException: java.security.cert.CertificateException: Certificates does not conform to algorithm constraints at sun.sec
2017-06-23 10:20:27 4824 2
原创 使用postgreSQL DataSync 进行pg数据库升级 数据同步 升级脚本生成, postgreSQL DataSync简单教程
最近,项目进行版本升级,数据库用的是postgresql ,而且数据库表结构有所改变,需要在保留原有数据库数据的情况下对数据库进行升级,那么怎样知道数据库哪些表哪些字段改变了呢?难道一个一个表一个一个字段去对比?这不是一个程序员应该做的事情.下面,教你如何用postgreSQL DataSync工具进行pg数据库升级.PostgreSQL Data Sync是SQL Maestro Gro
2017-06-23 09:34:42 6875 4
原创 thinking in java 阅读笔记 第六章 类再生
1.介绍了合成和继承,第一章就介绍过,这里详细的介绍了一下.2.介绍了继承关系初始化构建方法调用顺序,这些东西建议阅读>讲得更加透彻. 3.到底选择合成还是继承无论合成还是继承,都允许我们将子对象置于自己的新类中。大家或许会奇怪两者间的差异,以及到底该如何选择。如果想利用新类内部一个现有类的特性,而不想使用它的接口,通常应选择合成。也就是说,我们可嵌入一个对象,使自
2017-06-21 17:12:14 259
原创 thinking in java 阅读笔记 第五章 隐藏实施过程
第五章隐藏实施过程5.1 包 关于怎样创建独一无二的包名,为什么大多数项目的包目录结构都是com.* 根据约定,编译器强迫package名的第一部分是类创建者的因特网域名。由于因特网域名肯定是独一无二的(由InterNIC保证——注释②,它控制着域名的分配),所以假如按这一约定行事,package的名称就肯定不会重复,所以永远不会遇到名称冲突的问题。为进一步理解这个问题,
2017-06-21 16:33:15 246
原创 thinking in java 阅读笔记 第四章 初始化和清除
4.1 构建器自动初始化如果没有定义构建器,编译器会自动帮我们创建一个默认构建器.4.2 this关键字指向当前对象4.3 不可以从static方法内部调用非static方法,但是反过来是可以的.4.4 区分过载方法若方法有同样的名字,Java怎样知道我们指的哪一个方法呢?这里有一个简单的规则:每个过载的方法都必须采取独一无二的自变量类型列表。这一章没什么难懂的东西
2017-06-21 16:08:26 295
原创 thinking in java 阅读笔记 第三章 程序控制流程
第三章控制程序流程3.1 java运算符(1) ’==’ 关系运算符的使用注意事项. (2)短路:操作逻辑运算符时,我们会遇到一种名为“短路”的情况。这意味着只有明确得出整个表达式真或假的结论,才会对表达式进行逻辑求值。因此,一个逻辑表达式的所有部分都有可能不进行求值 (3)字面值: 1. 字面值最开始的时候,若在一个程序里插入“字面值”(Lit
2017-06-21 15:02:07 264
原创 thinking in java 阅读笔记 第二章 一切都是对象
第二章一切都是对象2.1 用句柄操纵对象句柄 也可以称作”引用” 甚至”指针” 例如:String s;s 就是一个句柄. 在java里,除了九种基本类型,其他的都是引用类型.2.2 所有对象都必须创建 例如: String s= new String("asdf"); 关于内存的分配:有六个地方可以保存数据. 这里不详细,可以翻阅>
2017-06-21 14:45:50 231
原创 thinking in java 阅读笔记 第一章 对象入门
第一章:对象入门面向对象编程(OOP)的好处: 对管理人员,它实现了更快和更廉价的开发与维护过程。对分析与设计人员,建模处理变得更加简单,能生成清晰、易于维护的设计方案。对程序员,对象模型显得如此高雅和浅显。1.1抽象的进步所有编程语言的最终目的都是提供一种”抽象”方法.1.2 对象的接口可以理解为 ”类型”决定了接口,”类”是接口的一种特殊实现方式.(这一块并没有理解得特别透
2017-06-20 15:08:04 438
原创 dubbo-admin java.langIllegalAccessError 系统内部错误
按照网上的教程,在jdk1.7环境下,将dubbo-admin安装到centos tomcat,启动tomcat 访问127.0.0.1:8080发现报错,有点莫名奇妙,解决方法:访问127.0.0.1:8080/index.html 成功跳出登录页面,居然会有这种奇葩问题,醉了.
2017-06-15 14:50:57 782
原创 关于跨域问题
1. 浏览器存在同源策略机制,同源策略阻止从一个源加载的文档或脚本获取或设置另一个源加载的文档属性.2. 同源判断的规则:两个页面具有相同的协议,端口,和主机,那么这两个页面就属于同一个源.3. Img iframe script 等具有src 属性的标签是受同源策略制约的4. JSONP和CORS何以解决跨域问题.5. Json
2017-06-13 19:39:57 338
原创 java抽奖算法
项目用到了抽奖,参照了csdn上的一篇文章,经过统计,发现概率不是很准确,经过改进,得到了比较好的算法。// 分别为一、二、三、四等将的奖品数量,最后一个为未中奖的数量。 private static final Integer[] lotteryList = {5, 10, 20, 40, 100}; private int getSum() {
2016-11-24 09:34:47 918
原创 Resource interpreted as Document but transferred with MIME type application/json ...
今天发布一个项目的时候,遇到了一个奇怪的问题,一个后台管理系统的excel导出。在我的本地测试中,导出没有任何问题,但是发布到服务器之后,第一次导出没有问题,多次导出之后,浏览器直接白屏。从服务器后端找错误,被其他无关的错误所误导。最终,在浏览器的调试中发现了这样一句话:Resource interpreted as Document but transferred with MIME typ
2016-11-15 16:22:17 66517 7
关系数据库,求大神知大指导
2015-06-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人