SparkShell实战

目录(?)[+] 1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(Driver Program):运行Application的mai...

2016-07-07 18:41:33

阅读数 323

评论数 0

Learning to Rank

去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(比如LambdaRank)的思想非常新颖,可以在其他领域中进行...

2016-01-04 23:52:02

阅读数 373

评论数 0

关于点击率模型,你知道这三点就够了

说到计算广告,或者个性化推荐,甚至一般的互联网产品,无论是运营、产品还是技术,最为关注的指标,就是点击率。业界也经常流传着一些故事,某某科学家通过建立更好的点击率预测模型,为公司带来了上亿的增量收入。点击率这样一个简单直接的统计量,为什么要用复杂的数学模型来刻画呢?这样的模型又是如何建立与评估的呢...

2016-01-04 23:35:15

阅读数 1024

评论数 1

从最大似然到EM算法浅解

转自: http://blog.csdn.net/zouxy09/article/details/8537620          机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的...

2016-01-03 23:18:33

阅读数 363

评论数 0

Logistic回归分析时几个需要注意的问题

1、关于样本含量的问题 logistic回归分析中,到底样本量多大才算够,这一直是个令许多人困惑的问题。尽管有的人从理论角度提出了logistic回归分析中的样本含量估计,但从使用角度来看多数并不现实。直到现在,这一问题尚无广为接受的答案。根据国外一些大牛的看法,如果样本量小于100,log...

2015-12-28 23:13:05

阅读数 9022

评论数 0

逻辑回归

一、线性回归        回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如 医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变 量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。       ...

2015-12-28 22:46:53

阅读数 493

评论数 0

监督学习 - 一个典型的工作流程

现今,当在“数据科学”领域开始引入各种概念的时候,著名的“鸢尾花(Iris)”花数据集可能是最常用的一个例子。1936年,R.A.Fisher在他的判别分析中创建和使用了Iris数据集。Iris现在可以从UCI机器学习库中免费得到。 在一个监督分类任务中,它将会是一个很好的例子。...

2015-12-23 22:39:55

阅读数 4370

评论数 0

决策树分类算法

一、决策树模型 决策树是一种对实例进行分类的树形结构,由结点(node)、有向边(directed edge)组成。 结点有2种类型:内部结点和叶子节点,其中内部结点表示实例样本的一个特征(feature),叶子 节点表示实例的类别(class)。一颗典型的决策树如下图所示:   ...

2015-12-12 18:19:02

阅读数 1066

评论数 0

朴素贝叶斯分类算法

一、贝叶斯定理         已知条件概率P(A|B)的情况下如何求得P(B|A),这就要用到贝叶斯定理了:     二、朴素贝叶斯算法的原理 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项...

2015-11-28 17:55:58

阅读数 967

评论数 0

R语言 apply函数家族详解

R语言 apply函数家族详解 apply Apply Functions Over Array Margins对阵列行或者列使用函数 apply(X, MARGIN, FUN, …) lapply Apply a Function ove...

2015-11-28 12:45:30

阅读数 550

评论数 0

推荐系统比较好的论

链接:http://www.zhihu.com/question/25566638/answer/37455091 来源:知乎 推荐几篇对工业界比较有影响的论文吧: 1. The Wisdom of The Few 豆瓣阿稳在介绍豆瓣猜的时候极力推荐过这篇论文,豆瓣猜也充分应用了...

2015-11-20 10:09:54

阅读数 776

评论数 0

机器学习常见算法分类

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介...

2015-11-20 09:46:00

阅读数 218

评论数 0

simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 原理 simhash值的生成图解如下 大概花三分钟看懂...

2015-11-17 17:37:37

阅读数 686

评论数 0

矩阵分解模型(1):ALS学习算法

一、矩阵分解模型。 用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示: 其中,A(i,j)表示用户user i对物品item j的打分。但是,用户不会对所以物品打分,图中?表示用户没有打分的情况,所以这个矩阵A很多元素都是空的,我们称...

2015-11-15 11:42:12

阅读数 22862

评论数 12

ALS 在 Spark MLlib 中的实现

转载自 http://www.csdn.net/article/2015-05-07/2824641 深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数...

2015-11-14 10:33:39

阅读数 1856

评论数 0

隐语义模型LFM

隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。比如,在推荐系统中它能够基于用户的行为对item进...

2015-11-12 21:03:03

阅读数 3122

评论数 0

基于内容的推荐(Content-based Recommendations)

[本文链接:http://www.cnblogs.com/breezedeus/archive/2012/04/10/2440488.html,转载请注明出处]       Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的...

2015-11-12 19:10:52

阅读数 417

评论数 0

推荐系统小结

转载自 http://blog.csdn.net/lzt1983/article/details/38884435 许久不做推荐系统了,但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路,顺便把自己过去几年对这个方向的理解做个小结吧。 什么是推荐系统:  ...

2015-11-11 20:02:33

阅读数 470

评论数 0

基于物品的协同过滤算法(Item-CF)

一、算法思想。     基于物品的协同过滤算法,是给用户推荐和他之前喜欢的物品相似的物品。 基于物品的协同过滤算法,是目前广泛使用的一种推荐算法,像Netflix, YouTube, Amazon等。   二、算法步骤。 1、计算物品之间的相似度。 计算相似度的方法有以下几种: ...

2015-11-10 13:59:16

阅读数 2492

评论数 0

UserCF算法 - 改进用户相似度计算

前面计算用户间兴趣相似度使用的是余弦相似度,该公式过于粗糙,需要改进该公式。       以图书为例,如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似,因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》,那可以认为他们的兴趣比较相似,因为只有研究数据挖...

2015-11-10 11:45:12

阅读数 3898

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭