数据挖掘算法
猫二哥
这个作者很懒,什么都没留下…
展开
-
快速理解bootstrap,bagging,boosting-三个概念
1 booststraping:意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。2 bagging:bootstrap aggregating的缩写。让该学习算法训练多轮。3 boost:其中主要的是adaboost(adaptive boosting)4 bagging和boosting的区别:二者的主要区别是取样本方式不同转载 2015-11-10 21:35:38 · 28034 阅读 · 0 评论 -
今天来学习下美团推荐算法实践:机器学习重排序模型
转载,来自小象学院。 美团推荐算法实践:机器学习重排序模型 文章介绍了美团推荐系统的构架和优化过程,包括数据层,触发层,融合过滤层和排序层,采用了Hbase,Hive,Storm,Spark和机器学习等技术。两个优化两点将是候选集进行融合与引入重排序模型。 看的到这里顿时觉得高大上了,有木有…… 在用户意图明确时,我们通过用搜索引擎来结局互联网时代的信息过载问题,但当用户的意图不明确的时候或转载 2015-11-14 20:38:15 · 16290 阅读 · 4 评论 -
open nsfw封装成接口
承接上文:http://blog.csdn.net/wangqi880/article/details/62037078 黄图识别-open nsfw为了使用的方便和提供别人好用,想把open nsfw封装成http形式的接口,别人通过上传图片,就可以得到这图片的nsfw score. 由于本人技术有限,python不太熟悉,自己整理了一套方案如下: 1因为图片需要上传到服务器之后,才能调用py原创 2017-03-14 12:45:57 · 5003 阅读 · 1 评论 -
黄图识别-open nsfw
大楷简介: open nsfw是一款开源的黄图识别的模型。对的,只是模型。并且有有python的代码作为预测图片是否黄图。 https://github.com/yahoo/open_nsfw 这里网址。 open nsfw是雅虎开源项目caffeonspark,使用深度学习训练得到caffe模型。nsfw翻译为不可在工作中看的图片。主要是针对黄图的,恐怖,血腥图片不能识别。 1 快速开始原创 2017-03-14 10:03:58 · 56179 阅读 · 2 评论 -
基于Spark的Als算法+自迭代+Spark2.0新写法
主要介绍了一下几点: 1矩阵分解的几种算法 2spark使用矩阵分解的几种方式,1ml 包中使用,2mllib包中的使用,其实有不调用包自己写的案列(可以去看看哈,就在example目录) 3使用ALS做推荐的一个比较详细的流程:1自迭代确定比较优的参数是,2使用参数训练模型,3使用模型推荐topn的物品给用户 4讲了怎么自迭代ALS算法参数,感觉这个还重要点 5提交spark的报了一个错原创 2016-10-25 16:13:57 · 15954 阅读 · 9 评论 -
基于Spark的FPGrowth(关联规则算法)
在推荐中,关联规则推荐使用的比较频繁,毕竟是通过概率来预测的,易于理解且准确度比较高,不过有一个缺点为,想要覆盖推荐物品的数量,就要降低支持度与置信度。过高的支持度与置信度会导致物品覆盖不过,这里需要其他的推荐方法合作,建议使用基于Spark的模型推荐算法(矩阵分解+ALS).一FPGrowth算法描述:FPGrowth算法概念:支持度,置信度,提升度(Spark好像没有计算这个的函数,需要自己计算原创 2016-10-24 11:34:10 · 19849 阅读 · 4 评论 -
Spark的逻辑回归与P_R_F评估
Spark的逻辑回归与P_R_F评估1逻辑回归可以使用预测2分类的场景,必须使用已经有分类的样本,然后经过训练,预测未分类的样本的Lable,输出是概率,表示一般为正的概率是好多。输入: libsvn数据 样本如下: sample_binary_classification_data.txt在spark的目录中有,属性太多了就不复制了。一般这种数据是存在表中,att1,att2…attn,La原创 2016-10-21 18:49:37 · 4242 阅读 · 0 评论 -
spark基于用户的协同过滤算法与坑点,提交job
承接上文: http://blog.csdn.net/wangqi880/article/details/52875524 对了,每台机子的防火墙要关闭哈,不然spark集群启动不起来 前一次,已经把spark的分布式集群布置好了,今天写一个简单的案例来运行。会写一些关于spark的推荐的东西,这里主要有4点,1基于用户协同过滤,2基于物品协同过滤,3基于模型的协同过滤,4基于关联规则的推荐(原创 2016-10-21 15:48:00 · 8317 阅读 · 5 评论 -
百分点苏海波-用户画像的构建与使用2应用
转载自百分点苏海波 上篇写了画像的理论性的知识,这篇学习下应用。 用户画像的具体应用包括售前的精准营销,售中的个性化推荐以及售后的增值服务等。用户的标签纬度和应用是相互相城的关系,一面可以根据现有的标签纬度开发应用,另一方面可以通过应用需求扩展维度,两者互相促进。 我们在这里举的列子分为3类,第一类是售前的精准营销,比如电商客户和企业客户,需要经过精准营销,把站外的用户吸引到你的网站上面来转载 2015-11-21 13:43:29 · 4496 阅读 · 0 评论 -
百分点苏海波-用户画像的构建与使用1
转载 百分点是一个推荐服务的提供商,但是已经转型为大数据解决方案的提供商。 首先看一下大数据与应用画像的关系,现在大数据是炙手可热的,大数据的4个V都比较了解,大数据应该说是信息技术的自然延伸,意味的无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT时代,it系统围绕这业务服务,在这个服务的过程中沉淀了许多的数据,在数据的基础上做一些分析。但是到了DT时代就不一样了。数据是现实世转载 2015-11-18 22:13:32 · 3731 阅读 · 0 评论 -
GBDT和随机森林的区别
1背景 以前把这两个搞混了2随机森林 说道随机森林就要提bagging集成方法。bagging才用有放回的抽样。下图时bagging的示意图。 随机森林是bagging的一种扩展,在k个数据集选择的时候后,引入了随机属性选择。加入所有属性个数为d,k是随机选择的属性个数。那么k=d的时候,就没有改变。那么k=1的时候后,随机选择一个属性用于计算。推荐的k=log2d. 随机森林的基学习器转载 2017-04-17 10:38:59 · 3715 阅读 · 0 评论