spark
iteye_12877
这个作者很懒,什么都没留下…
展开
-
spark基于ALS的协同过虑实例
最近在学习spark,网上有很多关于ALS的实例,大多数千篇一例,决定自己动手写一个实例,力求做到可以运行,有结果。 1、数据集准备: 到 http://grouplens.org/datasets/movielens/ 下载电影评分数据,查看一下README里面有对数据集的介绍。 对数据进行预处理: cat u1.base | awk -F "\t" '{print $1"::"...2016-07-26 13:59:17 · 261 阅读 · 0 评论 -
基于spark的DataFrame实战
Spark 中的另一核心功能是DataFrame,方便处理结构化数据。实例中还是以上一篇博客中的数据为基础。 我们要求以下数据: 1、查看338用户的评分记录; 2、将结果保存成csv格式; 3、评论电影最多的用户id; 4、被用户评论最多的电影id、title; 5、评论电影年龄最小者、最大者; 6、25至30岁的用户最喜欢的电影; 7、最受用户喜爱的电影; 代码如下: ...2016-07-27 21:24:59 · 504 阅读 · 0 评论 -
spark基于Streaming的累加器(updateStateByKey)
使用spark streaming 需要搭建Kafka、zookeeper,搭建的方法网上有很多,再此不再多讲: 文章中的代码参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/ 代码如下: import org.apache.spark.streaming.dstream.ReceiverIn...2016-07-28 11:05:46 · 367 阅读 · 0 评论 -
分享 scala maven 工程pom配置
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http2016-08-10 17:06:47 · 312 阅读 · 0 评论