Spark
AtongWood
这个作者很懒,什么都没留下…
展开
-
SparkSQL 自定义算子UDF、UDAF、UDTF
背景我根据算子输入输出之间的关系来理解算子分类:UDF——输入一行,输出一行UDAF——输入多行,输出一行UDTF——输入一行,输出多行本文主要是整理这三种自定义算子的具体实现方式使用的数据集——用户行为日志user_log.csv,csv中自带首行列头信息,字段定义如下: 1. user_id | 买家id2. item_id | 商品id3. cat_id | 商品类别...原创 2019-02-13 18:10:25 · 7301 阅读 · 1 评论 -
SparkSQL 通过加载csv文件创建dataframe的常用方式总结
目录背景准备工作主要流程效果截图主要代码外部引用参考资料背景一直很好奇web后台如何启动Spark应用程序,查找Api后发现可以使用org.apache.spark.launcher.SparkLauncher来做到这一点。我想得动手测试一下,而且要做的体面一些,所以搞个简易的web工程吧,顺便学习熟悉一下使用springboot框架。在这里将整个折腾的过程记录下来,新手上路,有任何搞错的地...原创 2019-02-12 11:23:58 · 2980 阅读 · 0 评论