机器学习
MONKEYMOMO
传递手艺传递爱!
展开
-
LR判断垃圾邮件spark代码
Spark-MLlib实例——逻辑回归,应用于二元分类的情况,这里以垃圾邮件分类为例,即是否为垃圾邮件两种情况。1、垃圾邮件分类,使用Spark-MLlib中的两个函数: 1)HashingTF: 从文本数据构建词频(term frequency)特征向量2)LogisticRegressionWithSGD: 使用随机梯度下降法(Stochastic Grad转载 2017-12-20 10:48:31 · 1087 阅读 · 0 评论 -
正则表达式符号
https://www.cnblogs.com/yirlin/archive/2006/04/12/373222.html原创 2018-02-11 17:31:54 · 175 阅读 · 0 评论 -
两个不一样的集群导数据
1.首先将老的集群环境建表地址取到(show create table xxxxxxxx)2.在老环境找一个容量比较大的目录get下来 hadoop fs -get xxxxxxx3.然后 tar -zcvf xxxxxxxx.tar.gz xxxxxxxx 打包在这个目录下4.然后就在该目录下sftp xxxx@10.41.7.10 输入密码 cd 切换到一个容量比原创 2017-12-19 11:26:06 · 245 阅读 · 0 评论 -
数据离散化的意义
数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:1**.算法需要:**比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。2**.离散化的特征相对于连续转载 2017-12-19 11:24:42 · 3584 阅读 · 0 评论 -
labelpoint向量总结及决策树的缺点
1.//创建一个稠密向量 val dv : Vector = Vector.dense(1.0,0.0,3.0); //创建一个稀疏向量(第一种方式) val sv1: Vector = Vector.sparse(3, Array(0,2), Array(1.0,3.0)); //创建一个稀疏向量(第二种方式) val sv2 : Vector = Vector.s原创 2017-12-27 14:36:45 · 795 阅读 · 0 评论 -
Spark2 ML包之决策树分类Decision tree classifier详细解说
所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html1.导入包123456789101112131415161718192021转载 2017-12-17 10:52:21 · 2098 阅读 · 0 评论 -
决策树独热onehotencoding
http://dblab.xmu.edu.cn/blog/1297-2/Spark的机器学习处理过程中,经常需要把标签数据(一般是字符串)转化成整数索引,而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器:StringIndexer、 IndexToString,OneHotEncoder,以及针对类别特征的索引VectorIndexer。St转载 2017-12-14 14:32:57 · 1135 阅读 · 0 评论 -
集群查看空间大小
命令:dh -f 大小以及地址原创 2017-12-22 10:20:57 · 4640 阅读 · 2 评论 -
决策树可视化python代码
#这段代码直接将决策树突出的模型转成json类型from __future__ import print_functionimport jsonif __name__ == "__main__": treetest = open("data/testif.txt").read() def parse(lines): block = []原创 2017-12-13 09:23:06 · 1345 阅读 · 0 评论 -
数据预处理拆分sql
# --------------------------------------------------------------------------------------------------------# @FileName: test_ads_rcm_movie_effect_monitoring_dm.sql# @CopyRight: copyright(c)huawei t...原创 2018-03-06 17:52:09 · 1052 阅读 · 0 评论