- 博客(13)
- 资源 (19)
- 收藏
- 关注
转载 基于hadoop搜索引擎实践——生成倒排表文件(四)
2.3 建立倒排表文件(下面原理引用刘鹏hadoop实战) 在分析完分词,Rank值得计算等问题的解决方案之后,就可以设计相应的MapReduce算法,来建立倒排表,计算,保存Rank和Position等附属信息。 首先定义倒排表存储信息格式,这是算法的输出目标,也是查询程序从倒排表中获取信息的接口。本系统倒排表的存储格式定义如下: (1)倒排表文件(INVERT
2017-08-27 11:45:12 432
转载 基于hadoop搜索引擎实践——网页爬取(二)
基于hadoop搜索引擎——网页爬取本系统抓取的是某网站的bbs论坛,具体情况可以根据自己的需求选择。1.爬取思路 爬取策略是深度优先爬取。算法思想如下: 从网站主页开始,执行如下步骤: (1)选择一个尚未爬取的频道(比如有社会,人文,娱乐);如果所有频道都已经爬完,算法结束 (2)在已选择的频道中,选择一个尚未爬取的板块(比如有八卦
2017-08-25 17:37:36 756
转载 基于hadoop搜索引擎实践——总体概述(一)
1.系统工作原理 搜索引擎是为用户提供信息检索服务的工具。在整个搜索系统中可以分为在线处理和离线处理两部分。搜索引擎的离线处理主要是在接受用户查询的请求之前需要处理的一系列工作。主要包括抓取并整理网页信息,建立倒排索引文件,建立二级索引文件等。离线处理涉及海量的数据,实时性要求不高。 在线处理主要是用户输入查询请求,搜索引擎为用户响应查询结果所完成的一系列工作。这部分主要包括:
2017-08-24 21:55:30 1807
转载 Lucene创建索引
//Lucene创建索引package com.lunces;import java.io.IOException;import java.nio.file.Paths;import java.util.Date; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analys
2017-08-24 17:57:24 338
转载 Lucene查询索引(优化一)
package com.lunces;import java.io.IOException;import java.nio.file.Paths; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnalyzer;import
2017-08-24 17:56:24 488
转载 Lucene查询索引
package com.lunces;//Lucene查询索引import java.io.IOException;import java.nio.file.Paths; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnal
2017-08-24 17:55:49 418
转载 JSOUP实践:解析和遍历HTML文档
一、jsoup简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML; 2. 使用DOM或CSS选择器来查找、取出数
2017-08-24 17:54:40 1349
转载 Lucene索引数据库实践
一、Lucene索引数据库基本思路 1、写一段传统的JDBC程序,将每条的用户信息从数据库读取出来 2、针对每条用户记录,建立一个lucene document 。Document doc = new Document(); 并根据你的需要,将用户信息的各个字段对应luncene document中的field 进行添加,如: doc.add(new Field
2017-08-24 17:52:59 223
转载 Lucene5.x简单示例教程
package zmx.lucene.test; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org
2017-08-24 17:51:40 306
转载 Lucene实践(二):Lucene总体设计架构
Lucene总的来说是:一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。 在Lucene in action中,Lucene 的构架和过程如下图, 说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索
2017-08-24 17:50:18 284
转载 Lucene实践(一):全文检索的基本原理
一、总论根据http://lucene.apache.org/java/docs/index.html 定义:"Apache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable fo
2017-08-24 17:42:06 285
转载 Java Socket 实现HTTP与HTTPS协议发送POST/GET请求
JAVA Socket 实现HTTP与HTTPS客户端发送POST与GET方式请求 哇,一看标题怎么这么长啊,其实意思很简单,哥讨厌用HTTP Client做POST与GET提交觉得那个毕竟是别人写得API库,所以我就自己实现了一个简单的HTTP客户端,支持POST方式提交数据,GET方式查询数据,是测试Restful API比较方便点,然后支持form与JSON两种
2017-08-24 17:39:48 1210
转载 汉字Unicode表
这是第二篇,由于篇幅过大,拆成两篇。查看第一篇 或查看完整篇幅注意:下面这两段是代理区。即第1——16平面的间接表示,四个字节的汉字就在这里表示D800-DBFF:High-half zone of UTF-16 DC00-DFFF:Low-half zone of UTF-16 本篇中包含了所有常用汉字27973个,剩余汉字使用代理区标识欢迎查看字符编码
2017-08-20 23:04:09 316884 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人