开发心得 pig
黑肚皮的窝
这个作者很懒,什么都没留下…
展开
-
PyFlink SQL的json解析函数
当你遇到大数据里含有json时候,离线数仓开发,hive有特别好用的get_json函数。例如下面的:SELECT get_json_object(xjson,"$.[0].age") FROM person但遇到实时处理该咋办?同学们会说,Flink SQL里不是有吗?好吧,你太想当然了。在FlinkSQL,特别是最好用的FlinkSQL里,居然没有成型的JSON解析函数。根据遇到的情形,有好几种方式。如果遇到的是json有固定结构,那在定义flinkSQL的表结构里可以。比原创 2021-10-22 10:36:18 · 1013 阅读 · 0 评论 -
pig的坑
这么执行 pig 脚本,结果坑不少。pig -f count_active2_day_total.pig -p basedir=in_off/active2 -p total_data=* -p cur_data=2014-02-28第一个坑,参数传递格式。错误curr_data = FILTER last_data by st原创 2014-03-07 18:35:42 · 1063 阅读 · 0 评论 -
Pig优化之路之巧用Macro
问题: 去年用Pig进行了一系列报表和ETL的开发,感觉Pig很不错,没有Hive的娇贵,又比粗糙的MapReduce来的精巧,很称手。新年正好涉及以前的程序调整,借此之机,对Pig写的脚本进行了优化。毕竟,越用越熟,越能发现Pig的魅力。 在整理以前的Pig程序里,发现了一个问题,就是pig没有提取数据集大小的功能,所以每次要取数据集条数的工作,总会遗留下如下代码:curr原创 2015-01-09 16:14:07 · 1868 阅读 · 0 评论