SparkMllib
gerrywhu
这个作者很懒,什么都没留下…
展开
-
pyspark-Logisticregression
pyspark mllib中提供的Logisticregression做分类,即逻辑回归模型,原理不多讲,代码也懒的上,官网例子很清楚了http://spark.apache.org/docs/latest/mllib-linear-methods.html#classification 看python的选项就好再详细的可以参考API,或者直接看scala源码: http://spark.apac原创 2017-05-15 21:29:10 · 3244 阅读 · 0 评论 -
Spark编译
因为要用到GBTClassifier的类别进行概率预测,而官网最新发布的截至发文为2.1.1,不包含此功能,查看在Github上的GBTClassifier源码已经增加了此功能,官网还没更新,预计在2.2.0时会发布,但是可以自己编译使用,在GitHub上下载源码自己编译。1.Github下载源码https://github.com/apache/spark 2.下载meavn http://ma原创 2017-05-15 21:11:08 · 241 阅读 · 0 评论 -
Windows下Spark python 单机开发环境
Spark提供的pyspark可以像scala shell一样提供交互式的开发,本文介绍在windows下单机环境下的pyspark配置,当然数据量小,任务简单,条件有限的可以在单机上这样做示例,数据量大任务重的还是配置linux集群环境。1.官网下载好的Spark包解压至某目录,如E:\spark-2.1.0-bin-hadoop2.6,2.添加环境变量SPARK_HOME如下:3.安装finds原创 2017-05-10 16:19:17 · 2915 阅读 · 0 评论 -
特征工程
1.http://breezedeus.github.io/2014/11/15/breezedeus-feature-processing.html 特征处理 2.http://breezedeus.github.io/2014/11/20/breezedeus-feature-hashing.html特征哈希原创 2017-06-09 15:34:43 · 212 阅读 · 0 评论 -
利用GBDT模型构造新特征
转自:http://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话:特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已。本文中我将介绍Faceb转载 2017-06-09 17:19:05 · 452 阅读 · 0 评论