算法/理论
文章平均质量分 66
crazyhacking
like a hacker
展开
-
HMM 隐马尔科夫模型
参考如下博客:http://www.52nlp.cn/itenyh%E7%89%88-%E7%94%A8hmm%E5%81%9A%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E4%B8%80%EF%BC%9A%E5%BA%8F转载 2013-12-11 14:27:47 · 848 阅读 · 0 评论 -
关联规则算法---Eclat算法
Eclat算法[编辑]与fp-growth 和apriori算法不同,Eclat算法加入了倒排的思想,具体就是将事务数据中的项作为key,每个项对应的事务ID作为value。原输入数据为tiditem1A,B2B,C3A,C4A,B,C转换后为:ite转载 2014-02-18 20:41:33 · 11526 阅读 · 1 评论 -
关联规则算法之FP growth算法
FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树,举例是最好的方法。请看下面这个例子: 这张表描述了一张商品交易清单,abc转载 2014-02-19 19:25:01 · 2275 阅读 · 0 评论 -
分类算法-----KNN
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法可以说是整个数据挖掘分类技术中最简单的方法了。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用她最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一转载 2014-07-16 20:23:53 · 1429 阅读 · 0 评论 -
推荐系统中的信息核
推荐系统可以简单看成一个用户-商品的二部分图,推荐算法要做的就是分析用户浏览、收藏、购买的记录,以及用户和商品的其他辅助信息,自动化找到用户喜欢的商品。推荐系统往往规模巨大,以刚刚上市的阿里巴巴为例,其淘宝平台是“10亿用户-10亿商品”的规模。是不是每一个用户都携带了同样价值的信息,对于算法贡献相同呢?我们认为不是,事实上,我们所要寻找的“推荐系统中的信息核”,就是一个用户的子集,却包含了推荐系转载 2014-09-22 20:11:55 · 909 阅读 · 0 评论 -
搜索分词---产生新词的公式
double s1 = score_1.get(entry.getKey().substring(0, 1));double s2 = score_1.get(entry.getKey().substring(1, 2));double s = entry.getValue();double r = 1;map.put(entry.getKey(),r*s/ Math.sqrt转载 2014-09-22 20:59:18 · 826 阅读 · 0 评论 -
Cookie mapping技术
摘要:Cookie mapping分为两步:(1)google ad exchange等在网站主网站上种cookie,生成google_id (2)用户在网站主网站上浏览时,有广告请求; google把请求302重定向到dsp,并携带加密过后的google_nid。这样dsp就在网站主网站种cookie,并且建立映射表:google_nid---->dbp_cookie转载 2013-09-04 11:48:48 · 10649 阅读 · 0 评论 -
个性化推荐系统技术总结
参考自《机器学习,数据挖掘在个性化推荐系统中的应用》--项亮转载 2014-11-13 11:51:50 · 4299 阅读 · 0 评论 -
为什么要预估点击率
想到这个题目是因为 @lijiefei 某天跟我说他有师弟面淘宝时被问到 "点击率预估的目标到底是什么", 笨狗当时胡乱扯了一通, 发现要把这个似乎已经是真理的事情掰清楚还没那么容易, 于是有此念想写文一篇详细分析下原因我和 jiefei 认识是在百度做搜索广告的时候, 那就从搜索广告开始说为什么要预估点击率, 以及预估点击率的目标. 先申明一些名词和假定:1) 每个广告 (Ad) 有转载 2014-11-13 15:41:13 · 1865 阅读 · 0 评论 -
关联规则算法
关联规则编辑关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。目录1简介▪ 故事▪ 定义▪ 例子2挖掘过程▪ 两个阶段▪转载 2014-02-17 11:31:25 · 18104 阅读 · 0 评论 -
Apriori算法第二篇----详细分析和代码实现
1 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。其中,Apriori算法具有这样一条性转载 2014-02-17 15:42:18 · 2711 阅读 · 0 评论 -
EM算法--第一篇
在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariable)。最大期望经常用在机器学习和计算机视觉的数据聚类(DataClustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大转载 2014-02-08 11:54:11 · 8081 阅读 · 1 评论 -
EM 期望最大化算法
(EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实转载 2013-12-11 11:21:32 · 5097 阅读 · 0 评论 -
K-means聚类算法
摘要bycrazyhacking:聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。K-means也是聚类算法中最简单的一种。以星团划分为例,,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为,这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重转载 2013-12-11 11:07:15 · 1040 阅读 · 0 评论 -
浅说机器学习中“迭代法”
浅说机器学习中“迭代法”[email protected]://blog.csdn.net/zouxy09 首先来点八股文(来自百度百科):迭代法也称辗转法,是一种不断用变量的旧值递推新值的过程,跟迭代法相对应的是直接法(或者称为一次解法),即一次性解决问题。迭代算法是用计算机解决问题的一种基本方法。它利用计算机运算速度快、适合做重复性操作的特点,让计算机对一组指令(转载 2014-02-08 14:42:56 · 2188 阅读 · 0 评论 -
PageRank算法第一篇
很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题,同时讨论早期搜索引擎关于结果页面重要性评价算法的困境,借此引出PageRank产生的背景。第二部分会详细讨论PageRank的思想来源、基础转载 2014-02-08 17:23:46 · 3971 阅读 · 0 评论 -
倒排索引--lucene
用途 倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。编辑本段原理 Lucene倒排索引原理 Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2转载 2012-11-04 13:06:29 · 1301 阅读 · 0 评论 -
机器学习与数据挖掘中的十大经典算法
机器学习与数据挖掘中的十大经典算法背景:top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:1.确实很忙2.得罪人3.一系列工作很繁琐等等。最后和明尼苏达大学的Vipin Ku转载 2014-02-17 11:04:19 · 12431 阅读 · 1 评论 -
Apriori算法第一篇
摘要: Apriori算法是产生k项高频项目组的一般手段。算法概要:首先产生k项高频项目集合Lk,自身链接形成k+1项的项目结合C(k+1),然后剪枝(去掉以前去掉的不满足支持度的高频)1 早些时候写过关于购物篮分析的文章,其中提到了C5.0和Apriori算法,没有仔细说说这算法的含义,昨天写了一下关联分析的理论部分,今天说说关联分析算法之一的Apriori算法,很多时候大转载 2014-02-17 15:14:43 · 1370 阅读 · 0 评论 -
回归分析之线性回归
1概念回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如转载 2014-10-14 16:00:06 · 18944 阅读 · 0 评论