聚类搜索引擎
文章平均质量分 74
mxdxm8899
这个作者很懒,什么都没留下…
展开
-
java中bin目录下的命令
javac:Java编译器,将Java源代码换成字节代 java:Java解释器,直接从类文件执行Java应用程序代码 appletviewer(小程序浏览器):一种执行HTML文件上的Java小程序类的Java浏览器 javadoc:根据Java源代码及其说明语句生成的HTML文档 jdb:Java调试器,可以逐行地执行程序、设置断点和检查变量 javah:产生可以调用Jav...原创 2009-09-17 20:23:20 · 232 阅读 · 0 评论 -
Lucene几种中文分词的总结
IK_CAnalyzer下载地址:http://cn.ziddu.com/download.php?uid=ZrKcmJepZbOb4palZLKWlJiiZaycmps%3D4 目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。另外网友谈的比较多的中文分词器还有:CJKAnalyze...原创 2009-10-10 15:14:05 · 146 阅读 · 0 评论 -
carrot2 融入自己的中文分词器
初试身手—融入自己的中文分词器 现在准备着手写一个真正意义上的聚类搜素了。一开始担心老外的carrot2对中文会进行“歧视”,后来发现原来carrot2还是比较重视中文的,在有一个org.carrot2.filter.lingo.local.ChineseLingoLocalFilterComponent的类,专门用来为中文提供分词操作。再次往下细看,底...原创 2009-05-19 16:08:18 · 483 阅读 · 0 评论 -
利用后缀树来聚类
采用基于Java的开源搜索结果聚合引擎,Carrot2 2.0 中的后缀树算法Carrot2 可以自动的把搜索结果归类到相应的语义类别中,这个功能是通过Carrot2一个现成的组件完成的,除此之外Carrot2 还包括了很多其他的搜索结果聚合聚类算法。因为没有做中文分词,也没有中文的Stopword,所以我们用英文测试,实现代码 1SnippetTokenizer snip...原创 2009-05-19 16:12:23 · 368 阅读 · 0 评论 -
数据挖掘网址共享
[color=red][/color]知识型企业研究中心 2006-12-26http://business.queensu.ca/index.phpQueen商务学校,任务是提高领导力的管理和促进商务和社会的发展。目前我们的研究工作...英国谢菲尔德大学自然语言处理研究组 2006-12-26http://nlp.shef.ac.uk/英国谢菲尔德大学自然语言处理研究组研究领...原创 2009-05-21 12:43:49 · 414 阅读 · 0 评论 -
批处理文件命令
echo、@、call、pause、rem 是批处理文件最常用的几个命令,我们就从他们开始学起。 echo 表示显示此命令后的字符 echo off 表示在此语句后所有运行的命令都不显示命令行本身 @ 与echo off相象,但它是加在其它命令行的最前面,表示运行时不显示命令行本身。 call 调用另一条批处理文件(如果直接调用别的批处理文件 ,执行完那条文件后将...原创 2010-05-13 21:15:28 · 92 阅读 · 0 评论 -
转载 Metaseeker简单介绍
MetaSeeker是什么样的网络爬虫2009-08-09 15:43MetaSeeker工具包是一套完整的网页内容抓取、格式化、数据集成、存储管理和搜索解决方案,此文简单介绍一下其网络爬虫的特点:网络爬虫有多种实现方法,如果按照部署在哪里分,可以分成:1,服务器侧:一般是一个多线程程序,同时下载多个目标HTML,可以用PHP, Java, Python(当前很流行...原创 2011-01-12 16:26:41 · 409 阅读 · 0 评论 -
(转载)海量数据的处理
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2...原创 2011-07-15 09:01:07 · 105 阅读 · 0 评论 -
TOP k算法
这是在网上找到的一道百度的面试题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较 高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。请你统计最热门的10个查询 串,要求使用的内存不能超过1G。解答转自:http://blog.red...原创 2011-07-15 09:19:47 · 236 阅读 · 0 评论