搜索引擎相关
西二旗小码农
爱搜索,爱互联网,愿意为之抛头颅洒热血,搜索推荐工程师一枚。
展开
-
数据挖掘算法总结-adaboost算法
<br />定义:<br />Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。<br /> <br />基本介绍:<br />Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这 <br />Adaboost<br />些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确转载 2011-05-11 16:13:00 · 986 阅读 · 0 评论 -
hadoop初学之WordCount程序一步一步运行
出处:http://blog.chinaunix.net/u3/105376/showart_2329753.html虽说现在用Eclipse下开发hadoop程序很方便了,但是命令行方式对于小程序开发验证很方便。这是初学hadoop时的笔记,记录下来以备查。1. 经典的WordCound程序(WordCount.java),见 hadoop0.18文档import jav转载 2011-11-10 00:05:32 · 1022 阅读 · 0 评论 -
MapReduce and K-Means Clustering
Google offers slides and presentations on many research topics online including distributed systems. And one of these presentations discusses MapReduce in the context of clustering algorithms.转载 2011-12-14 22:29:42 · 1061 阅读 · 0 评论 -
mahout中k-means例子的运行
首先简单说明下,mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&highlight=sequencefile转载 2012-01-31 10:58:17 · 2714 阅读 · 0 评论 -
Hadoop Core 学习笔记(一) SequenceFile文件写入和读取Writable数据
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blogs/1265944 刚接触Hadoop时,对SequenceFile和Writable还产生了一点联想,以为是什么神奇的东西.后来也明白,不过就是自己IO的一些协议,用于自己的输入输出.这里介绍下如何从sequence file中读出和写入Writable数据. Writab转载 2012-02-01 14:55:27 · 715 阅读 · 0 评论 -
常用的数据结构的一点小区别
Vector和ArrayList在使用上非常相似,都可用来表示一组数量可变的对象应用的集合,并且可以随机地访问其中的元素。 Vector的方法都是同步的(Synchronized),是线程安全的(thread-safe),而ArrayList的方法不是,由于线程的同步必然要影响性能,因此,ArrayList的性能比Vector好。 当Vector或ArrayList中的元素超过转载 2012-01-04 11:53:23 · 622 阅读 · 0 评论 -
由Java中的Set,List,Map引出的排序技巧
一。关于概念: List接口对Collection进行了简单的扩充,它的具体实现类常用的有ArrayList和LinkedList。你可以将任何东西放到一个List容器中,并在需要时从中取出。ArrayList从其命名中可以看出它是一种类似数组的形式进行存储,因此它的随机访问速度极快,而LinkedList的内部实现是链表,它适合于在链表中间需要频繁进行插入和删除操作。在具转载 2012-02-20 17:25:42 · 726 阅读 · 0 评论 -
python编写网络爬虫程序
工作了,需要抓取一些特定的资源进行分析。没有高速海量数据那么大的需求。所以想到用python直接写一个简单的爬虫,之后再编写模板进行定向解析,就解决问题了。毕竟我们的时间要求和数量级要求不是很高。 在网上搜索了一些python编写爬虫的文档,下载下来试试,看看效果。虽然我的这篇文章标明是原创,但是文章中也有一部分是参考了别人的信息,请谅解。因为我是想参考别人的精华,组合重构,来实现我需要原创 2012-04-06 11:52:40 · 2777 阅读 · 1 评论 -
Linux下C语言编程基础(Makefile)
假设我们有下面这样的一个程序,源代码如下: /* main.c */ #include "mytool1.h" #include "mytool2.h" int main(int argc,char **argv) { mytool1_print("hello"); mytool2_print("hello"); } /* mytool1.h */ #ifn转载 2012-04-12 13:31:12 · 593 阅读 · 1 评论 -
murmur:更快更好的哈希函数(字符串转64位hash值)
unsigned long long MurmurHash64B ( const void * key, int len, unsigned int seed ){ const unsigned int m = 0x5bd1e995; const int r = 24; unsigned int h1 = seed ^ len; unsigned int h2 = 0; con转载 2012-04-13 18:56:29 · 4993 阅读 · 0 评论 -
杂谈:用户的搜索意图(intention of SE users)
搜索引擎早已经成为互联网上的最大的应用之一了,可是新闻媒体已经研究人员很难拿到相关的数据来对它进行深入的研究。之所以不知庐山真面目,只缘看不到真正的有价值的数据及其分析。在搜索引擎领域,用户的搜索意图分析是一个关键领域,主要研究的方向是用户输入的关键词的真正意图。就拿最常见的搜索关键词:木乃伊3下载,这个搜索的意图非常明显,用户就是要找到能下载木乃伊3的一个网址。另外例如像n73这样的搜索词,转载 2012-04-30 21:41:20 · 2046 阅读 · 0 评论 -
搜索引擎用户搜索意图分析
你可能会觉得很奇怪,在百度里会有大量的用户搜百度、google、MSN、yahoo,同样在google里也会有大量的人搜百度、新浪,搜索者它希望搜索到什么结果?搜索引擎要做到更好的用户体验,就不得不去分析搜索用户的搜索意图。 雅虎的研究专家Andrei Broder将搜索者的意图分为三类: 一类是导航型搜索者,这类搜索者从某种渠道听说了一个网站,或者曾经访问过一个网站但忘记了域转载 2012-04-30 21:43:51 · 2466 阅读 · 0 评论 -
深入搜索引擎--查询(Query)
1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分转载 2012-05-01 11:46:20 · 2589 阅读 · 0 评论 -
如何识别字符编码
网上看到这样一段代码:String encode = "GB2312"; try { if (str.equals(new String(str.getBytes(encode), encode))) { String s = encode; return s; } } catch (Exception exception) { } 首先通过原创 2012-05-15 17:56:25 · 2031 阅读 · 0 评论 -
去掉目录下的.svn文件夹的方法
最近工作一直是用SVN,里面有.svn这个文件夹很麻烦,每个文件夹下都有.苦苦寻觅,从网上找到了解决方法.方法一: find . -type d -name ".svn"|xargs rm -rf 方法二: find . -type d -iname ".svn" -exec rm -rf {} \; PS:最近在瑞士军刀官网买了一个瑞士军刀背包.好书包质原创 2012-10-08 16:27:43 · 1807 阅读 · 0 评论 -
搜索引擎antispam系统设计指南
一. 设计原则与整体体系结构1.1 设计原则搜索引擎ANTI-SPAM作为一个新型的技术领域,目前逐渐引起学术届和搜索引擎市场的逐步重视.通过大量资料分析,我认为一个好的实用ANTI-SPAM系统应该遵循以下两个设计原则:原则1.实用的搜索引擎ANTI-SPAM系统应该允许核心算法公布,并且在核心算法公布之后不会导致现有ANTI-SPAM系统的失效.原则转载 2014-01-05 15:16:34 · 2340 阅读 · 0 评论 -
蛙蛙推荐:蛙蛙教你文本聚类
蛙蛙推荐:蛙蛙教你文本聚类摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。思路:计转载 2011-11-23 15:15:02 · 1570 阅读 · 0 评论 -
海量数据面试题整理
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0……a转载 2011-11-22 10:34:11 · 639 阅读 · 0 评论 -
如何选择合适的数据挖掘算法
<br />如果JDM没有自动选择算法,或者数据挖掘人员想控制算法设置,就可以显式选择算法、指定设置。数据挖掘专门知识、对可用算法的了解,以及往往确定哪种算法最适合解决问题的尝试,这些都有助于选择合适的算法及设置。 <br />决策树算法<br />决策树算法是最流行的算法之一,因为很容易理解它是如何进行预测的。决策树生成的规则不但可以解释如何进行预测、为何要预测,还有助于对一个群体进行划分,即显示哪几组实例会得出某个结果。决策树广泛用于分类,有些实现的决策树还支持回归方法。 <br />决策树算法会分析一转载 2011-05-11 16:23:00 · 1845 阅读 · 0 评论 -
倒排文件
倒排文件和多重表文件的区别在于次关键字索引的结构不同。通常,称倒排文件中的次关键字索引为倒排表,具有相同次关键字的记录之间不设指针相链,而在倒排表中该次关键字的一项中存放这些记录的物理记录号。例如,下列数据文件的倒排表如图10-8所示。物理记录号01020304050607080910 软件01,02,07,08计算机03,05应用04,06,09,10(a)专业倒排表350~39902,05,06,07,09,10400~44901,03,04,08(b)已修学分倒排表甲02,04,06,07,08,09原创 2011-05-12 21:24:00 · 1592 阅读 · 1 评论 -
数据挖掘算法总结-kmeans算法
最简单的聚类算法原创 2011-05-07 09:06:00 · 1402 阅读 · 0 评论 -
Rocchio算法
其基本思想是使用训练集为每个类构造一个原型向量,构造方法如下:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量,定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界。给定一篇文档,如果这篇文档与原型向量的相似度比界大,则这篇文档属于这个类,否则这篇文档就不属于这个类。Rocchio算法的突出优点是容易实现原创 2011-05-10 17:36:00 · 3492 阅读 · 0 评论 -
lucene、lucene.NET详细使用与优化详解
1 lucene简介1.1 什么是lucenepowered by 25175.netLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucen转载 2011-07-13 16:43:20 · 531 阅读 · 0 评论 -
(转)Lucene与搜索引擎技术(Analysis包详解)
Lucene与搜索引擎技术 TjuAILab windshow 2005.11.11 Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:转载 2011-07-13 16:32:28 · 573 阅读 · 0 评论 -
nutch和lucene的区别
想做一个搜索引擎,最近浏览了许多社区,发现Lucene和Nutch用的很多,而这两个我总感觉难以区分概念,于是在查了些资料。下面是Lucene和Nutch创始人Doug Cutting 的访谈摘录: Lucene其实是一个提供全文文本搜索的函数库,它不是一个应用软件。它提供很多A转载 2011-07-13 18:36:30 · 599 阅读 · 0 评论 -
Lucene 2.4.1 API
The article is from the site: http://lucene.apache.org/java/2_4_1/api/overview-summary.html#overview_description Apache Lucene is a high-per原创 2011-07-15 14:50:58 · 797 阅读 · 0 评论 -
搜索引擎爱好者博客
不知不觉中自己也从事了搜索。这里积累一个搜索引擎学习资源。主要是一些做搜索人的博客吧。 http://forfuture1978.iteye.com/ 这个很不错啊。原创 2011-07-15 15:22:35 · 501 阅读 · 0 评论 -
正则表达式匹配问题
最近在做URL的分词。需要找到一级域名,没有二级域名的URL,自动增加WWW。比如sina.com => www.sina.com但是 baike.sina.com 就不做任何改动我用了正则String regUrl = "[^\\.^\\/]*原创 2011-10-08 10:52:23 · 542 阅读 · 0 评论 -
编辑距离
我们来看一个实际应用。现代搜索技术的发展很多以提供优质、高效的服务作为目标。比如说:baidu、google、sousou等知名全文搜索系统。当我们输入一个错误的query="Jave" 的时候,返回中有大量包含正确的拼写 "Java"的网页。当然这里面用到的技术绝对不会是我们今天讲的怎么简单。但我想说的是:字符串的相似度计算也是做到这一点的方法之一。字符串编辑距离: 是一种字符串之间转载 2011-10-21 15:14:44 · 518 阅读 · 0 评论 -
网页去重:搜索引擎重复网页的算法
2007-2-28 11:26:59搜索引擎算法之复制网页搜索引擎复制网页的算法春节这几天,看了一些搜索引擎基本原理的书,下面把了解到关于复制网页的算法写下来。关键词:搜索引擎,复制网页,算法,信息指纹,Fingerprint,关键词搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹转载 2011-11-17 14:34:39 · 1015 阅读 · 0 评论 -
网页去重:搜索引擎重复网页发现技术分析1
一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如HTML, Postscript),文献[Models and Algorithms for Duplicate Document D转载 2011-11-17 14:42:05 · 1008 阅读 · 0 评论 -
网页去重-比较文本的相似度-Near duplication detection
near duplicate detection 的任务是检测重复的内容,这项工作在搜索引擎,版权保护,信息展示等方面都有很好的应用。在搜索引擎上,主要是去掉重复的页面,图片,文件,文档等等。下面就指讨论网页的deduplication。问题是什么?据统计,网页上的大部分相同的页面占29%,而主体内容完全相同的占22%,这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文转载 2011-11-17 16:12:43 · 1219 阅读 · 0 评论 -
DBSCAN算法的Java实现
DBSCAN是一种基于密度的聚类算法,它的基本原理就是给定两个参数,ξ和minp,其中 ξ可以理解为半径,算法将在这个半径内查找样本,minp是一个以ξ为半径查找到的样本个数n的限制条件,只要n>=minp,查找到的样本点就是核心样本点,算法的具体描述见参考文件1,下边是这个算法的java实现: 首先定义一个Point类,代表样本点 package com.sunzhenx转载 2011-11-21 11:33:50 · 8269 阅读 · 3 评论 -
DBSCAN
DBSCAN (for density-based spatial clustering of applications with noise) is adata clustering algorithm proposed byMartin Ester, Hans-Peter Kriegel,Jörg Sander and Xiaowei Xu in 1996.[1] It转载 2011-11-21 12:10:43 · 1393 阅读 · 0 评论