搜索引擎
mark_yueye
热衷于技术提升,热爱编程。
展开
-
索引压缩
建立索引是搜索引擎核心技术之一,建立索引的目的是能够快速的响应用户的查询。搜索引擎最常用的索引数据结构是倒排文档,倒排文档的原理其实相当简单。 我们拿以下三篇文章作为代表来说明倒排文档,文章内容为: D1:“张钰小姐代表了中国广大淫民的根本利益” D2:”宋祖德先生代表了中国八卦文化的前进方向“ D3:“郭敬明代表了中国作家...2013-11-16 15:44:15 · 127 阅读 · 0 评论 -
实现像百度一样的自动补全功能
import java.io.IOException; import java.io.Reader; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util.List; import java.util.Map; import org.apache....2013-11-27 20:28:03 · 118 阅读 · 0 评论 -
自动抽取新闻网页中的主要内容
抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。 String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+bro...2013-11-29 22:26:41 · 384 阅读 · 0 评论