2016年04月_suibianshen2012

12月 11月 10月 09月 08月 07月 06月 05月 04月

转载实时推荐系统简要概述

推荐系统介绍自从1992年施乐的科学家为了解决信息负载的问题，第一次提出协同过滤算法，个性化推荐已经经过了二十几年的发展。1998年，林登和他的同事申请了“item-to-item”协同过滤技术的专利，经过多年的实践，亚马逊宣称销售的推荐占比可以占到整个销售GMV（Gross Merchandise Volume，即年度成交总额）的30%以上。随后Netflix举办的推荐算法优化竞赛，吸引

2016-04-28 15:38:00 901

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它们各自的优缺点和适用场景，帮助

2016-04-28 15:13:35 4306

转载余弦相似性：找出相似文章

上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。为了简单起见，我们先从句子着手

2016-04-28 10:34:53 4081

转载 TF-IDF算法：自动提取关键字

有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我今天想要介绍的TF-IDF算法。

2016-04-28 10:21:30 1523

转载朴素贝叶斯(Native Bayes)法简述

1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。1.2、分类问题综述对于分类问题，其实谁都不会陌生，说我们每个人每天都在执行

2016-04-26 19:13:24 5204

转载 Ubuntu不能上网，不能ping通网关

ubuntu不能上网解决方法用这个方法的前提是你的网卡驱动已经打上了。如何判断你的网卡驱动有没有打上去可以用着个方法来判断打开终端输入 ping 127.0.0.1 （将红色字体的字输入完毕后按回车键），如果能拼通证明网卡驱动是打好了的，经过本人的实验研究，找到了彻底解决的方法，按照我给大家的路径打开后编辑一下就OK了。打开etc目录，按下Ctrl加F 输入 D

2016-04-26 11:07:22 29615 2

转载先验概率、后验概率、最大似然估计（MLE）

本文假设大家都知道什么叫条件概率了（P(A|B)表示在B事件发生的情况下，A事件发生的概率）。先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假设我们出门堵车的可能因素有两个（就是假设而已，别当真）：车辆太多和交通事故。堵车的概率就是先验概率。那么如果我们出门之前我们听到新闻说今天路上出了个交通事故，那么我们想算一下堵车的概率，

2016-04-25 09:30:53 1481

转载 k近邻算法（KNN）及kd树简介（KD-Tree）

在使用k近邻法进行分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量，所以距离的计算通常采用的是欧式距离。关键的是k值的选取，如果k值太小就意味着整体模型变得复杂，容易发生过拟合，即如果邻近的实例点恰巧是噪声，预测就会出错，极端的情况是k=1，称为最近邻算法，对于待预测点x，与x最近的点决定了x的类别。k值得增大意味着整体的

2016-04-24 17:40:19 20745 5

转载向量范数和矩阵范数

1、向量范数1-范数：，即向量元素绝对值之和，matlab调用函数norm(x, 1) 。2-范数：，Euclid范数（欧几里得范数，常用计算向量长度），即向量元素绝对值的平方和再开方，matlab调用函数norm(x, 2)。∞-范数：，即所有向量元素绝对值中的最大值，matlab调用函数norm(x, inf)。-∞-范数：，即所有向量元素绝对值中的最小

2016-04-24 11:05:42 812

原创 S折交叉验证简介

思路：第1步，将数据等分到s份。第2步，下列步骤重复s次。（1）每一次迭代中留存其中一份数据。第一次迭代中留存第1份，第二次留存第2份，其余依此类推，第i次留存第i份。（2）用其他s-1份数据的信息作为训练数据，训练分类器（第一次迭代中利用从第2份到第s份的信息进行训练分类器）。（3）利用留存的数据作为测试数据，来测试分类器并保存测试结果

2016-04-24 10:58:13 3163

原创 python3.x 学习笔记 2

一、解析【备注】主要讲列表解析、字典解析和集合解析的概念。1、处理文件和目录a：python3自带一个os模块（代表操作系统operating system），os模块包含非常多的函数用于获取（和修改）本地目录、文件进程、环境变量等信息。b：os是python3自带的，可以在任何地方导入。import osc：获取当前工作目录：os.getcwd()；d：改变当前工作目

2016-04-19 12:53:28 433

原创 Python 3学习笔记1

一、第一个python程序，包含的内容1、声明函数：以关键字 def 开头，紧跟着函数的名称，然后是用括号括起来的参数。多个参数以逗号分割。【注意】函数不定义一个返回数据类型；事实上，每个 Python 函数都返回一个值，如果这个函数曾经执行了return语句，它将返回那个值，否则它将返回 Python 里面的空值 None。Python 里面，变量从来不会显式的指定类型。 P

2016-04-18 16:45:18 671

转载 SVM多分类问题，解决方案

SVM实现多分类的三种方案SVM本身是一个二值分类器　　SVM算法最初是为二值分类问题设计的，当处理多类问题时，就需要构造合适的多类分类器。　　目前，构造SVM多类分类器的方法主要有两类　　（1）直接法，直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单，但其计算复杂度比较高，实现起来

2016-04-17 20:55:12 4022

常用中文停用词

常用的中文停用词，停止词，stopword

2017-05-08

20news-bydate.tar.gz 文本分类数据集 20news

2016-05-19

集体智慧编程（中文版）

本书以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息，以便创造新的用户价值和商业价值。全书内容翔实，包括协作过滤技术（实现关联产品推荐功能）、集群数据分析（在大规模数据集中发掘相似的数据子集）、搜索引擎核心技术（爬虫、索引、查询引擎、PageRank算法等）、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术（垃圾邮件过滤、文本过滤）、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。本书是Web开发者、架构师、应用工程师等的绝佳选择。

2016-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

suibianshen2012的专栏

转载实时推荐系统简要概述

转载推荐系统：协同过滤算法简介

转载余弦相似性：找出相似文章

转载 TF-IDF算法：自动提取关键字

转载朴素贝叶斯(Native Bayes)法简述

转载 Ubuntu不能上网，不能ping通网关

转载先验概率、后验概率、最大似然估计（MLE）

转载 k近邻算法（KNN）及kd树简介（KD-Tree）

转载向量范数和矩阵范数

原创 S折交叉验证简介

原创 python3.x 学习笔记 2

原创 Python 3学习笔记1

转载 SVM多分类问题，解决方案

常用中文停用词

20news-bydate.tar.gz 文本分类数据集 20news

集体智慧编程（中文版）

推荐系统实践

codeblocks使用教程 linux版

rfc2616中文版

2012年5月上半年软件设计师考试试题及其答案

2011下半年软件设计师试题及其答案

2012软件设计师试题及答案

security入门

Maven下建立web工程详细步骤

Spring Security 3.x.chm 中文参考手册

Spring2.5+Struts1.3.8+Hibernate3.0整合

struts1.2源码

ssh1实现简单的增删查改i+ssh2实现crud

空空如也

常用中文停用词

20news-bydate.tar.gz 文本分类 数据集 20news

集体智慧编程（中文版）

推荐系统实践

codeblocks使用教程 linux版

rfc2616中文版

2012年5月上半年软件设计师考试试题及其答案

2011下半年软件设计师试题及其答案

2012软件设计师试题及答案

security入门

Maven下建立web工程详细步骤

Spring Security 3.x.chm 中文参考手册

Spring2.5+Struts1.3.8+Hibernate3.0整合

struts1.2源码

ssh1实现简单的增删查改i+ssh2实现crud

空空如也

20news-bydate.tar.gz 文本分类数据集 20news