Lucene入门之中文分词简介

最新推荐文章于 2024-09-30 10:36:58 发布

SoS1437

最新推荐文章于 2024-09-30 10:36:58 发布

阅读量790

点赞数

分类专栏： Search Engine 文章标签： lucene string null 算法测试 class

本文链接：https://blog.csdn.net/SoS1437/article/details/4424063

版权

Search Engine 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

中文分词

分词效果测试方法

1，定义一串用来分词的语句

例如 String s=”中国的软件必将站在世界之巅”;

2，将语句写入到流中

例如StringReader reader=new StringReader(s);

3，遍历所有的分词片段Token

While((t=analyzer.next())!=null){

System.out.println(t.termText()+””);

}

4，测试实例：二分法

package example.analizer;

//UseCJK.java

import java.io.StringReader;

import org.apache.lucene.analysis.cjk.CJKTokenizer;

public class UseCJK

{

public static void main(String[] args) throws java.io.IOException

{

String s = "中国的软件必将站在世界之巅";

StringReader sr = new StringReader(s);

CJKTokenizer cjk = new CJKTokenizer(sr);

org.apache.lucene.analysis.Token t = null;

while( (t=cjk.next()) !=null )

{

System.out.print(t.termText()+"|");

}

分词词在Lucene中应用法

用于创建索引器

IndexWriter writer =new IndexWriter(indexPath,new CJKAnalyzer());

二分法分词器

CJKAnalyzer

每两个相邻的词算做一个

Lucene自带的中文分词器

ChineseAnalyzer

单字切分。每个字算做一个。

其它的分词器

NGram

JE分词器，基于词典法

IK分词器，词典分词+正反向全切分法。有两个，MIK_CAnalyzer使用最大全切分算法

IKAnalyzer使用细粒度全切分算法

中科院也做了自己的分词器

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SoS1437

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Lucene分词器

Winyar的博客

07-19

306

介绍历史: 创始人Doug Cutting(hadoop); lucene:是搜索引擎的工具包基于java编写的特点稳定,索引性能高(倒排索引) 现代硬盘每小时索引150G数据(索引:创建索引文件) java运行时要求的堆内存1MB 增量索引和批量索引一样快提供排名支持多种主流的搜索功能:短语,通配符,模糊,近似,范围,此项,多义词等查询功能 lucene的分词计算分词:分词的过程就...

lucene mysql 实例_Lucene入门示例

weixin_34393451的博客

01-27

256

流程环境搭建(导入依赖包)一、采集数据(获取数据，并将数据转为Lucene所需要的文档)【1】创建与数据库相关的pojopublic class Book {private Integer bookId; // 图书ID private String name; // 图书名称 private Float price; // 图书价格 private Strin...

参与评论您还未登录，请先登录后发表或查看评论

2024年运维最新lucene入门学习

2401_83627805的博客

05-01

100

1、创建索引1）获得文档原始文档：要基于那些数据来进行搜索，那么这些数据就是原始文档。搜索引擎：使用爬虫获得原始文档站内搜索：数据库中的数据。案例：直接使用io流读取磁盘上的文件。2）构建文档对象对应每个原始文档创建一个Document对象每个document对象中包含多个域（field）域中保存就是原始文档数据。域的名称域的值每个文档都有一个唯一的编号，就是文档id3）分析文档就是分词的过程1、根据空格进行字符串拆分，得到一个单词列表。

Lucene从入门到精通

p6448777的博客

05-03

1151

-三方分词器****************************************************************************************************************************************************-->Product product_1 = new Product(1, "华为手机", 3000, 10, "华为.jpg", "华为", "300*300", 5);

Lucene 入门

itbogeman

05-07

562

Luence是什么 Luence是一款优秀的全文搜索框架，它可以在系统中对文本进行快速检索，达到加速查询的目的。如图：这是在我们没有luence全文索引下对数据查询的常用方案这种在用户量小，数据量小的时候我们使用这方方案是没有任何问题的，但是面对百万级甚至千万级的数据怎么办呢，显然这种是存在明显弊端的，在使用like进行全文检索的时候，会导致我们的索引失效，进行全表扫描。下图是使用luence之后的整体架构方案可以把大批量数据放入luence索引库，查询的时候不直接走我们的数据库全表like扫描

lucene入门

qq_43588771的博客

09-08

464

lucene入门简介导入pom依赖生成索引使用索引构建索引文档域加权特定项搜索指定数字范围查询中文分词器和高亮效果案例简介 Lucene是当前非常流行的、免费的Java信息搜索(IR)库。Lucene是Apache下一个著名的开源搜索引擎内核，它基于Java技术，可以处理索引、拼写检查、点击爸爸好高亮和其他分词等技术。Lucene并不关心数据源、数据格式、甚至数据的语言，Lucene更不会关心搜...

Lucene入门及操作详解

qq_45441466的博客

09-05

9361

1 什么是全文检索 1.1 数据分类我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word 文档等磁盘上的文件 1.2 结构化数据搜索常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现，通常都是使用 sql语句进行查询，而且能很快的得到查询结果。为什么数据库搜索很容易？因为数据库中的数据存储是有规律的，...

Lucene入门(3) | 利用 IK-analyzer 进行中文分词

Sartin的博客

05-22

579

文章目录利用 IK-analyzer 进行中文分词分析器（Analyzer）的执行过程实操代码一、不配置暂停词和字典二、配置暂停词和字典利用 IK-analyzer 进行中文分词 分析器（Analyzer）的执行过程如下图是语汇单元的生成过程：从一个Reader字符流开始，创建一个基于Reader的Tokenizer分词器，经过三个TokenFilter生成语汇单元Token。要看分析器的分析效果，只需要看Tokenstream中的内容就可以了。每个分析器都有一个方法tokenStream，返回一

Lucene快速入门第三讲——看看Lucene是如何支持中文分词的？

李阿昀的博客

03-18

3187

在这一讲中，我们要看看Lucene到底是如何支持中文分词的？为了向大家阐述明白这个问题，咱们可先从分析器的执行过程入手。分析器（Analyzer）的执行过程如下图所示是语汇单元的生成过程：从一个Reader字符流开始，创建一个基于Reader的Tokenizer分词器，经过三个TokenFilter生成语汇单元Token。要看分析器的分析效果，只需要看TokenStream中的内容就可以...

Lucene4.7+IK Analyzer中文分词入门教程

04-02

【Lucene4.7+IK Analyzer中文分词入门教程】 Lucene是一个开源的全文检索库，它提供了文本分析、索引和搜索的核心工具。在这个入门教程中，我们将使用Lucene 4.7版本，结合IK Analyzer，一个专门针对中文分词的开源...

lucene 入门

03-14

`lucene入门小实例.txt` 文件中可能包含了一个简单的Lucene使用示例，例如： 1. 创建 `Directory` 对象，比如使用 `FSDirectory.open()` 打开一个文件系统的目录来存储索引。 2. 实例化 `Analyzer`，如使用 `...

Lucene入门之索引的建立和优化

snowteng17的专栏

08-08

4289

索引的建立和优化索引的建立对不同的文本使用不同的分析器普通情况下，建立索引器，并向索引器添加文档的语句如下： IndexWriter writer=new IndexWriter(indexPath,new StandardAnalyzer()); Writer.addDoc

Lucene入门之索引的管理

snowteng17的专栏

08-08

1027

Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE

Lucene入门之构建多种搜索请求

snowteng17的专栏

08-08

1016

词条搜索 TermQuery Term t=new Term(被搜索的Field,搜索关键词); TermQuery q=new TermQuery(t);组合搜索组合搜索可以满足搜索词之间一些逻辑关系。

Lucene入门之创建索引

snowteng17的专栏

08-07

965

创建索引创建索引的基本方式创建索引的过程1，建立索引器IndexWriter2，建立文档对象Document3，建立信息字段对象Field4，将Field添加到Document里面5，将Document添加到IndexWriter6，关闭IndexWriter 创建Field Field

Lucene入门之执行搜索

snowteng17的专栏

08-07

701

执行搜索搜索的流程1，创建搜索器创建的方法如下：IndexSearcher searcher=new IndexSearcher(索引存放的路径);使用searcher.search();2，封装用户输入的搜索条件如果用户搜索条件是,在标题中搜索Hello World,那么就可以用Term term=new Term(“title”,”H

【Unity】Luban学习笔记