- 博客(13)
- 资源 (16)
- 收藏
- 关注
转载 实时推荐系统简要概述
推荐系统介绍自从1992年施乐的科学家为了解决信息负载的问题,第一次提出协同过滤算法,个性化推荐已经经过了二十几年的发展。1998年,林登和他的同事申请了“item-to-item”协同过滤技术的专利,经过多年的实践,亚马逊宣称销售的推荐占比可以占到整个销售GMV(Gross Merchandise Volume,即年度成交总额)的30%以上。随后Netflix举办的推荐算法优化竞赛,吸引
2016-04-28 15:38:00 901
转载 推荐系统:协同过滤算法简介
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助
2016-04-28 15:13:35 4306
转载 余弦相似性:找出相似文章
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手
2016-04-28 10:34:53 4081
转载 TF-IDF算法:自动提取关键字
有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。
2016-04-28 10:21:30 1523
转载 朴素贝叶斯(Native Bayes)法简述
1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行
2016-04-26 19:13:24 5204
转载 Ubuntu不能上网,不能ping通网关
ubuntu不能上网解决方法 用这个方法的前提是你的网卡驱动已经打上了。如何判断你的网卡驱动有没有打上去可以用着个方法来判断 打开终端 输入 ping 127.0.0.1 (将红色字体的字输入完毕后按回车键),如果能拼通证明网卡驱动是打好了的,经过本人的实验研究,找到了彻底解决的方法,按照我给大家的路径打开后编辑一下就OK了。打开etc目录,按下Ctrl加F 输入 D
2016-04-26 11:07:22 29615 2
转载 先验概率、后验概率、最大似然估计(MLE)
本文假设大家都知道什么叫条件概率了(P(A|B)表示在B事件发生的情况下,A事件发生的概率)。先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。堵车的概率就是先验概率 。那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,
2016-04-25 09:30:53 1481
转载 k近邻算法(KNN)及kd树简介(KD-Tree)
在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是噪声,预测就会出错,极端的情况是k=1,称为最近邻算法,对于待预测点x,与x最近的点决定了x的类别。k值得增大意味着整体的
2016-04-24 17:40:19 20745 5
转载 向量范数和矩阵范数
1、向量范数1-范数:,即向量元素绝对值之和,matlab调用函数norm(x, 1) 。2-范数:,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x, 2)。∞-范数:,即所有向量元素绝对值中的最大值,matlab调用函数norm(x, inf)。-∞-范数:,即所有向量元素绝对值中的最小
2016-04-24 11:05:42 812
原创 S折交叉验证 简介
思路:第1步,将数据等分到s份。第2步,下列步骤重复s次。(1)每一次迭代中留存其中一份数据。第一次迭代中留存第1份,第二次留存第2份,其余依此类推,第i次留存第i份。(2)用其他s-1份数据的信息作为训练数据,训练分类器(第一次迭代中利用从第2份到第s份的信息进行训练分类器)。(3)利用留存的数据作为测试数据,来测试分类器并保存测试结果
2016-04-24 10:58:13 3163
原创 python3.x 学习笔记 2
一、解析【备注】主要讲列表解析、字典解析和集合解析的概念。1、处理文件和目录a:python3自带一个os模块(代表操作系统operating system),os模块包含非常多的函数用于获取(和修改)本地目录、文件进程、环境变量等信息。b:os是python3自带的,可以在任何地方导入。import osc:获取当前工作目录:os.getcwd();d:改变当前工作目
2016-04-19 12:53:28 433
原创 Python 3学习笔记1
一、第一个python程序,包含的内容1、声明函数:以关键字 def 开头,紧跟着函数的名称,然后是用括号括起来的参数。多个参数以逗号分割。【注意】函数不定义一个返回数据类型;事实上,每个 Python 函数都返回一个值,如果这个函数曾经执行了return语句,它将返回那个值,否则它将返回 Python 里面的空值 None。Python 里面,变量从来不会显式的指定类型。 P
2016-04-18 16:45:18 671
转载 SVM多分类问题,解决方案
SVM实现多分类的三种方案SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来
2016-04-17 20:55:12 4022
集体智慧编程(中文版)
2016-02-25
security入门
2012-07-12
Maven下建立web工程详细步骤
2012-07-11
Spring Security 3.x.chm 中文参考手册
2012-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人