- 博客(6)
- 资源 (6)
- 收藏
- 关注
原创 SparkSQL实现类似flatmap
RDD中flatmap可以将多信息化的列拍平,那么Spark SQL如何实现这个功能?如下:scala> val sentenceDataFrame = spark.createDataFrame(Seq( | (0, "Hi I heard about Spark"), | (1, "I wish Java could use case classes...
2019-07-15 15:16:38 2833
原创 网站用户行为分析的日志接收服务
分享一个用户http的用户行为日志收集服务,支持实时日志接收到kafka的实时计算和落盘日志的离线计算。编译nginx的时候新增第三方模块即可 ./configure --prefix=./install --add-module=./ngx_http_behavior_click_module --with-http_realip_module编译完成安装配置 location /beh...
2019-07-15 14:17:14 568
原创 基于SparkMLLib的随机决策森林多元回归模型
时间问题,有时间再说模型的训练,包括决策树/决策森林原理,特征向量的处理,因子的选择,超参数调整,管道,决策森林和决策树的关系,本次直接上干货,代码中有适量的注释。工程数据:https://github.com/johncai0/RandomForestClassification/tree/master/data工程库:https://github.com/johncai0/Random...
2019-07-14 20:07:21 578
原创 基于Spark MlLib的协同过滤推荐模型
目录1. 介绍2. 开始干货a. 准备数据b. 数据标准化c. 模型训练d. 模型评估e. 推荐输出3. 拓展1. 介绍官方文档说明:http://spark.apache.org/docs/latest/ml-collaborative-filtering.html本文章源代码工程:https://github.com/johncai0/A...
2019-07-14 16:07:09 796
原创 记一次Spark MlLib中ASL算法的参数接受问题
在Spark MlLib中的ASL 交替最小二乘法推荐模型,接收的参数为userID:IntitemID:Int评分:Int那么产生了两个问题:1. 生产数据的用户id和itemID可能是字符串2. 最大值问题首先说第一个问题,如果是字符串,需要重新定义整形的ID,重新定义ID的方式有两种RDD:data.map(_.uid).distinct().zipWithI...
2019-07-14 00:50:34 716
原创 SparkSQL中UDF的定义方式
1. 老的Hive中的方式,支持.sql算子中的sql调用,例如select udf(col1) from 注册的表。def myUdf(id: Int) = s"tag$id"sqlContext.udf.register("myUdf", myUdf(_:Int))使用df.registerTempTable(“df”)sqlContext.sql(“select myU...
2019-07-13 23:35:18 419
spark高级数据分析 附带源代码
2018-06-19
IIS建站工具
2014-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人