机器学习
文章平均质量分 90
图特摩斯科技
数据库方向-图数仓的发明者,时序、多维、异构、动态+静态知识图谱数据库AbutionGraph发明者。
展开
-
使用Spark构建聚类模型
将使用一个模型(推荐模型)的输出作为另外一个模型(聚类模型)的输入 import org.apache.spark.mllib.clustering.KMeans import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.linalg.distributed.RowMatrix import org.原创 2016-05-01 15:53:31 · 3270 阅读 · 0 评论 -
分布式算法调参神器HyperOptSearch-[增强学习Ray.tune]-使用XGboost举例
分布式增强学习Ray.tune调参神器HyperOptSearch近日在研究分布式增强学习框架Ray.tune(深度学习参数优化)模块时,发现里面使用的HyperOptSearch其实是基于HyperOpt(最后章节讲解)(https://github.com/hyperopt/hyperopt)支持的SearchAlgorithm,用于执行基于模型的顺序超参数优化,但是又结合了一些新的算法进...原创 2018-12-06 18:22:18 · 4495 阅读 · 10 评论 -
用Spark学习FP Tree算法和PrefixSpan算法
原文:http://www.cnblogs.com/pinard/p/6340162.html 在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库,而Spark MLlib有,本文的使用以Spark转载 2017-09-04 16:28:48 · 447 阅读 · 0 评论 -
PrefixSpan算法原理总结
原文:http://www.cnblogs.com/pinard/p/6323182.html 前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标稍有不同。1. 项集数据和序列数据 首先我们看看项集数据和序列数转载 2017-09-04 16:07:06 · 1203 阅读 · 0 评论 -
Spark ML 去除噪声(离群值)的方法
------------------1.Bucketizer----------------------------------分箱(分段处理)将(连续数值)转换为离散类别。-- 应用(去除离群值)------------------2.QuantileDiscretizer(分位数离散化)---------------------------------和Bucketizer(分箱处理)一样:将连续数值特征转换为离散类别特征。实际上Class QuantileDiscretizer extends原创 2017-04-11 09:55:56 · 3860 阅读 · 2 评论 -
「报错」Spark: scala.MatchError (of class org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema
场景: 多分类出错代码:/** 词向量映射*/val hashingTF = new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(500). transform(DF_classAndDoc)/** 计算逆向文本频率 */val idf = new IDF原创 2017-04-10 11:31:25 · 12676 阅读 · 3 评论 -
python实现RDD转成聚类输入矩阵
//---------------------------- text = sc.textFile("file:///home/mysql1/word_text_new1/part-00000",1).map(lambda x: x.split("\t"))# text.first()//-------------------------------------初始化数据# 提取原创 2016-08-11 19:21:13 · 2140 阅读 · 0 评论 -
Spark在线广告点击预测
* 在线广告点击预测,若网页中广告发生点击计为1,否则0. * 每次曝光的特征向量由曝光事件的相关特征变量组成(如:用户、URL、网页id、网页内容、广告、广告客户、设备类型、事件、地理位置等其它相关因素) * * 概率模型:逻辑回归、朴素贝叶斯 * 非概率模型:SVM(最大间隔分类器)、决策树(可表达复杂的非线性模式和特征相互关系。信息增益:节点不纯度-基尼不纯+熵)原创 2016-06-30 16:42:16 · 2914 阅读 · 2 评论 -
基于Spark平台的电影推荐系统实现
* 推荐引擎相关概念概述: * 场景:1.可选项众多 2.偏个人喜好 * * 1.基于内容的过滤: 利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。 * 2.基于用户的协同过滤: 利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。内在思想是相似度的定义。 * 3.两者的得分取决于若干用户或是物品之间依据相似度所构成的集合,即最近邻模型。 * * 1.计算给定用户对某个物品的预计评级: 从用户因子矩阵取相应的行和物品因子矩阵取原创 2016-06-29 17:07:35 · 9845 阅读 · 1 评论 -
PCA/SVD用于人脸图像数据
spark mllib 提供两种相似的降低维度的模型:主成分分析(PCA)和奇异值分解(SVD)用于在无监督学习中降低数据维度。 应用场景: 探索性数据分析; 提取特征区训练其它机器学习模型; 降低大型模型在预测阶段的存储和计算需求 把大量文档缩减为一组隐含话题; 当数据维度很高时,使得学习和推广更容易(如,处理文本、声音、图像、视频等非常高维的数据时)原创 2016-05-03 20:12:42 · 1384 阅读 · 1 评论 -
使用(SIFT特征KMeans聚类关键点训练SVM)实现自然图像中的logo商标识别和定位
(本博客只记录方法,因为本人觉得这是机器学习特征工程中一种比较不错的做法)上一篇博客中的方法:使用Py-OpenCV(SIFT关键点)实现自然图像中的logo商标识别和定位当然也能提前欲知该方法的缺点,对于新的logo需要重新训练模型,而且所需的数据集远大于上面的方法。 实现方法:bb = [v for v in image_to_descriptors.values()]...原创 2018-12-14 15:31:58 · 6102 阅读 · 5 评论