自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (16)
  • 收藏
  • 关注

转载 实时推荐系统简要概述

推荐系统介绍自从1992年施乐的科学家为了解决信息负载的问题,第一次提出协同过滤算法,个性化推荐已经经过了二十几年的发展。1998年,林登和他的同事申请了“item-to-item”协同过滤技术的专利,经过多年的实践,亚马逊宣称销售的推荐占比可以占到整个销售GMV(Gross Merchandise Volume,即年度成交总额)的30%以上。随后Netflix举办的推荐算法优化竞赛,吸引

2016-04-28 15:38:00 901

转载 推荐系统:协同过滤算法简介

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助

2016-04-28 15:13:35 4306

转载 余弦相似性:找出相似文章

上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手

2016-04-28 10:34:53 4081

转载 TF-IDF算法:自动提取关键字

有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。

2016-04-28 10:21:30 1523

转载 朴素贝叶斯(Native Bayes)法简述

1.1、摘要      贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述      对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行

2016-04-26 19:13:24 5204

转载 Ubuntu不能上网,不能ping通网关

ubuntu不能上网解决方法      用这个方法的前提是你的网卡驱动已经打上了。如何判断你的网卡驱动有没有打上去可以用着个方法来判断       打开终端 输入 ping 127.0.0.1 (将红色字体的字输入完毕后按回车键),如果能拼通证明网卡驱动是打好了的,经过本人的实验研究,找到了彻底解决的方法,按照我给大家的路径打开后编辑一下就OK了。打开etc目录,按下Ctrl加F 输入 D

2016-04-26 11:07:22 29615 2

转载 先验概率、后验概率、最大似然估计(MLE)

本文假设大家都知道什么叫条件概率了(P(A|B)表示在B事件发生的情况下,A事件发生的概率)。先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。堵车的概率就是先验概率 。那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,

2016-04-25 09:30:53 1481

转载 k近邻算法(KNN)及kd树简介(KD-Tree)

在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是噪声,预测就会出错,极端的情况是k=1,称为最近邻算法,对于待预测点x,与x最近的点决定了x的类别。k值得增大意味着整体的

2016-04-24 17:40:19 20745 5

转载 向量范数和矩阵范数

1、向量范数1-范数:,即向量元素绝对值之和,matlab调用函数norm(x, 1) 。2-范数:,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x, 2)。∞-范数:,即所有向量元素绝对值中的最大值,matlab调用函数norm(x, inf)。-∞-范数:,即所有向量元素绝对值中的最小

2016-04-24 11:05:42 812

原创 S折交叉验证 简介

思路:第1步,将数据等分到s份。第2步,下列步骤重复s次。(1)每一次迭代中留存其中一份数据。第一次迭代中留存第1份,第二次留存第2份,其余依此类推,第i次留存第i份。(2)用其他s-1份数据的信息作为训练数据,训练分类器(第一次迭代中利用从第2份到第s份的信息进行训练分类器)。(3)利用留存的数据作为测试数据,来测试分类器并保存测试结果

2016-04-24 10:58:13 3163

原创 python3.x 学习笔记 2

一、解析【备注】主要讲列表解析、字典解析和集合解析的概念。1、处理文件和目录a:python3自带一个os模块(代表操作系统operating system),os模块包含非常多的函数用于获取(和修改)本地目录、文件进程、环境变量等信息。b:os是python3自带的,可以在任何地方导入。import osc:获取当前工作目录:os.getcwd();d:改变当前工作目

2016-04-19 12:53:28 433

原创 Python 3学习笔记1

一、第一个python程序,包含的内容1、声明函数:以关键字 def 开头,紧跟着函数的名称,然后是用括号括起来的参数。多个参数以逗号分割。【注意】函数不定义一个返回数据类型;事实上,每个 Python 函数都返回一个值,如果这个函数曾经执行了return语句,它将返回那个值,否则它将返回 Python 里面的空值 None。Python 里面,变量从来不会显式的指定类型。 P

2016-04-18 16:45:18 671

转载 SVM多分类问题,解决方案

SVM实现多分类的三种方案SVM本身是一个二值分类器  SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。  目前,构造SVM多类分类器的方法主要有两类  (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来

2016-04-17 20:55:12 4022

常用中文停用词

常用的中文停用词,停止词,stopword

2017-05-08

20news-bydate.tar.gz 文本分类 数据集 20news

20news-bydate.tar.gz 文本分类 数据集 20news

2016-05-19

集体智慧编程(中文版)

本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。 本书是Web开发者、架构师、应用工程师等的绝佳选择。

2016-02-25

推荐系统实践

推荐系统实践,推荐算法讲解 很好的一本书

2016-02-24

codeblocks使用教程 linux版

linux版本的codeblocks使用教程,简单明了,希望对学习者有所帮助

2015-09-23

rfc2616中文版

rfc2616中文版,还不错,有需要的可以看一下

2013-07-29

2012年5月上半年软件设计师考试试题及其答案

2012年5月上半年软件设计师考试试题及其答案,希望对软考的朋友们有所帮助

2013-05-14

2011下半年软件设计师试题及其答案

2011年下半年的软件设计师试题及其答案,自己看了下还不错,希望对打算软考的有帮助

2012-07-27

2012软件设计师试题及答案

2012年5月份“软件设计师”软考真题及其答案,希望对大家有所帮组!!

2012-07-27

security入门

在网上找的spring security3.0开发入门,感觉讲的还不错,跟着操作,都可以运行。希望对正在学习security的你有所帮助。过几天会自己总结一个比较系统的学习笔记,希望大家多多关注,多多交流,互相进步。

2012-07-12

Maven下建立web工程详细步骤

在Eclipse中如何运用Maven建立自己的web项目,在网上找了篇文档感觉不错,同时对步骤进行了些许细化,比较清晰,希望对初学者有所帮助。

2012-07-11

Spring Security 3.x.chm 中文参考手册

Spring Security 3.x中文参考手册.chm,是好不容易在网上找到的,版面格式可能稍有点乱,不过还是不错的,希望对做开发的朋友有帮助;同时,如果大家找到更好的版本,希望可以拿出来与大家一起分享。

2012-07-09

Spring2.5+Struts1.3.8+Hibernate3.0整合

Spring2.5+Struts1.3.8+Hibernate3.0整合详细配置 希望对初学者有所帮助

2012-05-31

struts1.2源码

struts1.2源码 struts1.2下载 struts1.2的jar包 struts1.2

2012-05-31

ssh1实现简单的增删查改i+ssh2实现crud

用ssh1和ssh2整合开发,实现了简单的增删查改功能,希望对初学者有所帮助。

2012-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除