算法(algorithm)
aabbcc456aa
这个作者很懒,什么都没留下…
展开
-
基于用户投票的排名算法
作者: 阮一峰日期: 2012年2月24日用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可转载 2013-07-15 18:10:45 · 590 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(三):拼写检查
日期: 2012年10月16日作者: 阮一峰(这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。)使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seperate。Google告诉你,这个词是不存在的,正确的拼法是separate。这就叫做"拼写检查"转载 2013-07-17 19:02:04 · 508 阅读 · 0 评论 -
seo 提取 正文 算法
一、基于统计的中文网页正文抽取的研究摘 要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方转载 2013-10-24 14:33:07 · 1201 阅读 · 0 评论 -
时间序列挖掘-预测算法-三次指数平滑法(Holt-Winters)
在时间序列中,我们需要基于该时间序列当前已有的数据来预测其在之后的走势,三次指数平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)算法可以很好的进行时间序列的预测。 时间序列数据一般有以下几种特点:1.趋势(Trend) 2. 季节性(Seasonality)。 趋势描述的是时间序列的整体走势,比如总体上升或者总体下降。转载 2014-02-08 17:10:48 · 5821 阅读 · 1 评论 -
用 Ruby 求定积分
galeki posted @ 2008年6月16日 14:23 in RoR , 2220 阅读纯属无聊……曾经以为求积分之类的是个很复杂的过程,对那些可以求出积分值的计算程序佩服不以,昨日脑子不知道为什么忽然想到这个问题,翻了翻书,发现这个问题很简单~ 用最简单的矩形法,Ruby 代码如下:def integral(a, b, n = 100)转载 2014-02-20 15:38:47 · 673 阅读 · 0 评论 -
Pearson(皮尔逊)相关系数及MATLAB实现
由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数。 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:(1)、当相关系数为0时,X和Y两变量无关系。(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。(3)、当X的值转载 2014-03-10 21:05:16 · 40204 阅读 · 0 评论