scala
文章平均质量分 63
公众号【禅与大数据】,欢迎订阅
禅与大数据
展开
-
win10+intelij 开发spark程序(一)
win10+intelij 开发spark程序(一)原创 2017-08-11 16:10:04 · 534 阅读 · 1 评论 -
spark对电商用户订单行为特征分析(一)
最近在整理spark技术的应用,觉得 行为特征归类, 相似产品或相似功能推荐 这块比较热门. 网上发现一个网上大数据实验室,是厦门大学建立的一个网站,发布一些大数据的知识.其中有一个案例,叫 "淘宝双11数据分析与预测课程案例" ,我就用它练手.实验室网站链接: http://dblab.xmu.edu.cn/blog/spark/案例主要要求如下:对文本文件形式的原始数据集进原创 2017-08-11 18:47:53 · 4089 阅读 · 0 评论 -
spark查询任意字段,并使用dataframe输出结果
spark查询任意字段,并使用dataframe输出结果原创 2017-11-27 09:18:04 · 12242 阅读 · 1 评论 -
用ant自动compile|run|package spark程序
前段时间,需要写一个用户在前端编辑代码,后台自动生成scala程序的例子.其功能类似与web在线写代码,在线执行,出结果.一开始,不知从何下手,经同事提醒,可以用ant来自动编译程序,再结合sh脚本执行新的scala 编译后的程序. 于是折腾了一天,写了一个build.xml编译工具:原创 2017-11-26 11:38:09 · 494 阅读 · 0 评论 -
spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别
spark常见操作系列做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别 2. spark读写hadoop 3. spark读写hbase 4. spark广播变量的应用 5. spar...原创 2018-03-10 16:57:16 · 2038 阅读 · 0 评论 -
spark常见操作系列(2)--spark读写hadoop
真正开发大数据之前,本人折腾过hadoop,spark组件,其中把之前公司的日志放到hadoop 和hive里面去读写.但实际上,真正开发spark程序,遇到的坑,是十分多的.本篇主要介绍spark读写hadoop.hadoop的读写,有java方式,也有scala方式. 虽scala可以嵌入java代码,并不意味着直接把java 操作工具类放到scala程序就行了. hadoop 一般...原创 2018-03-10 19:14:58 · 3029 阅读 · 0 评论 -
使用Spark rdd 开发spark程序
文章目录1.常用的rddrdd的输入和输出,scala版,java版每个rdd函数的使用场景特殊rdd的使用选择reduceByKey,groupByKey,的使用选择collect,count的使用选择总结1.常用的rdd函数说明map(func)返回一个新的分布式数据集,由每个原元素经过func函数转换后组成filter(func)返回一个新的数据集,由经过f...原创 2019-05-30 12:01:13 · 404 阅读 · 0 评论