![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Jie Qiao
邮箱:358463121@qq.com
展开
-
SparkR数据分析
本文的运行环境是ubuntu,在阅读这篇文章前,请先保证你已经成功配置了Spark, 并设置好了全局变量 SPARK_HOME以及 PATH ,能够成功运行Spark.(如果你在终端输入sparkR 运行成功的话就证明你成功了) 如果还没有配置成功的话,参考这里,安装SPARK只需三步1.下载示例数据MovieLens 100k数据集 它包含了用户和电影信息,以及10万次用户对电影的评价,将其解原创 2016-01-20 16:23:58 · 2393 阅读 · 0 评论 -
XGBoost+LR融合方案
Xgboost+LR融合方案这是14年,facebook提出的一种融合方法。他的核心思想是将boosting看作是一个将样本进行非线性变换的方法。对于连续的特征:一个简单的非线性变化就是将特征划分到不同的区域(bin),然后再将这些区域的编号看作一个离散的特征来进行训练。这也就是俗称的连续变量离散化方法,这有非常多的方法可以完成这项事情。对于离散的特征:我们可以直接对特征做一个笛卡尔积从而得到一系列原创 2017-09-15 16:25:20 · 8560 阅读 · 0 评论