oucpowerman-CSDN博客

转载 SparkShell实战

目录(?)[+]1、Spark编程模型1.1 术语定义l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；l驱动程序（Driver Program）：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表Driver Progr

2016-07-07 18:41:33 685

转载 Learning to Rank

去年实习时，因为项目需要，接触了一下Learning to Rank(以下简称L2R)，感觉很有意思，也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中，并提出了一些新的理论和算法，不仅有效地解决了排序的问题，其中一些算法(比如LambdaRank)的思想非常新颖，可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位，L2R可以被广泛的应用在信息(文档)检索，协同过滤等领域。

2016-01-04 23:52:02 618

原创关于点击率模型，你知道这三点就够了

说到计算广告，或者个性化推荐，甚至一般的互联网产品，无论是运营、产品还是技术，最为关注的指标，就是点击率。业界也经常流传着一些故事，某某科学家通过建立更好的点击率预测模型，为公司带来了上亿的增量收入。点击率这样一个简单直接的统计量，为什么要用复杂的数学模型来刻画呢？这样的模型又是如何建立与评估的呢？我们这一期就来谈谈这个问题。一、为什么要建立一个点击率模型？无论是人工运营还是机器决

2016-01-04 23:35:15 1465

转载从最大似然到EM算法浅解

转自：http://blog.csdn.net/zouxy09/article/details/8537620 机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么

2016-01-03 23:18:33 585

转载 Logistic回归分析时几个需要注意的问题

1、关于样本含量的问题logistic回归分析中，到底样本量多大才算够，这一直是个令许多人困惑的问题。尽管有的人从理论角度提出了logistic回归分析中的样本含量估计，但从使用角度来看多数并不现实。直到现在，这一问题尚无广为接受的答案。根据国外一些大牛的看法，如果样本量小于100，logistic回归的最大似然估计可能有一定的风险，如果大于500则显得比较充足。当然，样本大小还依赖于变量

2015-12-28 23:13:05 31126 2

原创逻辑回归

一、线性回归回归是一种极易理解的模型，就相当于y=f(x)，表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切，之后判定病人是否生病或生了什么病，其中的望闻问切就是获取自变量x，即特征数据，判断是否生病就相当于获取因变量y，即预测分类。最简单的回归是线性回归，在此借用Andrew NG的讲义，有如图1.a所示，X为数据

2015-12-28 22:46:53 744

转载监督学习 - 一个典型的工作流程

现今，当在“数据科学”领域开始引入各种概念的时候，著名的“鸢尾花（Iris）”花数据集可能是最常用的一个例子。1936年，R.A.Fisher在他的判别分析中创建和使用了Iris数据集。Iris现在可以从UCI机器学习库中免费得到。在一个监督分类任务中，它将会是一个很好的例子。Iris中的花被分为了三类：Setosa , Virginica , 和Versicolor .而这1

2015-12-23 22:39:55 6173

原创决策树分类算法

一、决策树模型决策树是一种对实例进行分类的树形结构，由结点（node）、有向边（directed edge）组成。结点有2种类型：内部结点和叶子节点，其中内部结点表示实例样本的一个特征（feature），叶子节点表示实例的类别（class）。一颗典型的决策树如下图所示：可以将决策树看成是一个“if-then”规则的集合，决策树的每条路径就是一条规则，路径上的内

2015-12-12 18:19:02 1492

原创朴素贝叶斯分类算法

一、贝叶斯定理已知条件概率P(A|B)的情况下如何求得P(B|A)，这就要用到贝叶斯定理了：二、朴素贝叶斯算法的原理朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么

2015-11-28 17:55:58 1536

转载 R语言 apply函数家族详解

R语言 apply函数家族详解applyApply Functions Over Array Margins对阵列行或者列使用函数apply(X, MARGIN, FUN, …)lapplyApply a Function over a List or Vector对列表或者向量使用函数lapply(X, FUN, …)

2015-11-28 12:45:30 1195

转载推荐系统比较好的论

链接：http://www.zhihu.com/question/25566638/answer/37455091来源：知乎推荐几篇对工业界比较有影响的论文吧：1. The Wisdom of The Few 豆瓣阿稳在介绍豆瓣猜的时候极力推荐过这篇论文，豆瓣猜也充分应用了这篇论文中提出的算法；2. Restricted Boltzmann Machines for C

2015-11-20 10:09:54 999

转载机器学习常见算法分类

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法，以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。学习方式根据数据类型的不同，对一

2015-11-20 09:46:00 1194

转载 simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品，你懂的。 simhash最牛逼的一点就是将一个文档，最后转换成一个64位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是原理simhash值的生成图解如下大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛，简单实用。算法过程大概如下：

2015-11-17 17:37:37 1506

原创矩阵分解模型（1）：ALS学习算法

一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n)，表示m个用户对n各物品的打分情况。如下图所示：其中，A(i,j)表示用户user i对物品item j的打分。但是，用户不会对所以物品打分，图中？表示用户没有打分的情况，所以这个矩阵A很多元素都是空的，我们称其为“缺失值（missing value）”。在推荐系统中，我们希望得到用户对所有物品的打分情况，如果

2015-11-15 11:42:12 32976 3

转载 ALS 在 Spark MLlib 中的实现

转载自 http://www.csdn.net/article/2015-05-07/2824641深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布，MLlib 作为 Spark 负责机器学习（ML）的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法：研究主题分布的 latent Dirichlet allocation （LDA）、估计

2015-11-14 10:33:39 2235

原创隐语义模型LFM

隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近些年它们也被不断应用到其他领域中，并得到了不错的应用效果。比如，在推荐系统中它能够基于用户的行为对item进行自动聚类，也就是把item划分到不同类别/主题，这些主题/类别可以理解为用户的兴趣。对于一个用户

2015-11-12 21:03:03 4109

转载基于内容的推荐（Content-based Recommendations）

[本文链接：http://www.cnblogs.com/breezedeus/archive/2012/04/10/2440488.html，转载请注明出处] Collaborative Filtering Recommendations (协同过滤，简称CF) 是目前最流行的推荐方法，在研究界和工业界得到大量使用。但是，工业界真正使用的系统一般都不会只有CF推荐算法，Cont

2015-11-12 19:10:52 646

转载推荐系统小结

转载自 http://blog.csdn.net/lzt1983/article/details/38884435许久不做推荐系统了，但偶尔也会关注一些相关的论文或资料。最近喜欢整理思路，顺便把自己过去几年对这个方向的理解做个小结吧。什么是推荐系统：自动或被动地为用户推送其可能感兴趣的目标单元（商品、人、活动等）的系统。推

2015-11-11 20:02:33 612

原创基于物品的协同过滤算法（Item-CF）

一、算法思想。基于物品的协同过滤算法，是给用户推荐和他之前喜欢的物品相似的物品。基于物品的协同过滤算法，是目前广泛使用的一种推荐算法，像Netflix, YouTube, Amazon等。二、算法步骤。1、计算物品之间的相似度。计算相似度的方法有以下几种：基于余弦（Cosine-based）的相似度计算，通过计算两个向量之间的夹角余弦值来计算物品之间的

2015-11-10 13:59:16 4819

原创 UserCF算法 - 改进用户相似度计算

前面计算用户间兴趣相似度使用的是余弦相似度，该公式过于粗糙，需要改进该公式。以图书为例，如果两个用户都曾经买过《新华字典》，这丝毫不能说明他们兴趣相似，因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》，那可以认为他们的兴趣比较相似，因为只有研究数据挖掘的人才会买这本书。换句话说，两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此，Joh

2015-11-10 11:45:12 6355

转载数据归一化和两种常用的归一化方法

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种常用的归一化方法：一、min-max标准化（Min-Max Normalization）也称为

2015-11-09 17:50:14 1299

转载基于用户的协同过滤推荐算法原理和实现

转载自 http://www.cnblogs.com/technology/p/4467895.html 在推荐系统众多方法中，基于用户的协同过滤推荐算法是最早诞生的，原理也较为简单。该算法1992年提出并用于邮件过滤系统，两年后1994年被 GroupLens 用于新闻过滤。一直到2000年，该算法都是推荐系统领域最著名的算法。本文简单介绍基于用

2015-11-09 14:07:23 704

原创 K-近邻分类算法KNN

一、KNN算法的步骤计算已知类别数据集中每个点与当前点的距离；选取与当前点距离最小的K个点；统计前K个点中每个类别的样本出现的频率；返回前K个点出现频率最高的类别作为当前点的预测分类。二、计算距离传统上，KNN算法采用的是欧式距离，即：假设item的特征向量为（x1,x2,......,xn），则欧式距离=2个item在特征空间上的直线距离。如果item是文本，它的特征是文

2015-11-07 21:38:37 3428

oucpowerman的博客