【全文检索】分词
文章平均质量分 90
Microi风闲
三天不学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lucene.NET + Jieba分词:核心词典与停用词配置详解
在中文搜索场景中,Lucene.NET结合Jieba分词能显著提升文本处理能力。但实际应用中,dict.txt(核心词典)、(同义词库)和(停用词表)的配置直接影响分词效果和搜索质量。本文将详细介绍这三个文件的作用、格式及实战用法。原创 2025-04-16 11:16:26 · 1859 阅读 · 57 评论 -
Lucene.Net 分词器选择指南:盘古分词 vs 结巴分词
在构建基于Lucene.Net的中文搜索引擎时,分词器的选择直接影响搜索效果和性能。盘古分词(PanGu)和结巴分词(jieba)是两个主流选择,以下是它们的深度对比与选择建议。盘古分词:适合搜索场景优先、需要与Lucene.Net深度集成的项目结巴分词:适合需要NLP扩展能力、对准确率要求更高的场景最终建如果项目以搜索为核心且需高性能 → 选择盘古分词如果需处理复杂语义且能接受性能损耗 → 选择结巴分词。原创 2025-04-06 20:37:20 · 3560 阅读 · 53 评论 -
Lucene.Net全文搜索引擎:架构解析与全流程实战指南
Lucene.Net灵活架构:模块化设计支持深度定制高性能:倒排索引+段机制保障搜索效率可扩展:通过Analyzer和Similarity实现业务适配集成实现分布式搜索结合AI模型实现语义搜索构建实时日志分析系统。原创 2025-04-06 16:09:25 · 1965 阅读 · 22 评论 -
基于 .NET 8 + Lucene.Net + 结巴分词实现全文检索与匹配度打分实战指南
本文详细讲解如何利用.NET 8Lucene.Net和结巴分词(Jieba)实现高效的全文检索功能,并支持搜索结果按匹配度排序。内容涵盖环境搭建、索引管理、分词优化、动态更新策略及实战代码示例,助您快速构建高性能中文搜索引擎。.NET 8:微软最新跨平台框架,提供高性能运行时。Apache顶级搜索库的.NET移植版,支持复杂搜索逻辑。结巴分词(Jieba):高效中文分词组件,支持搜索和索引双模式。// 修改词频计算逻辑// 应用自定义评分停用词文件:移除“的”、“了”等无意义词。用户词典。原创 2025-04-04 20:41:35 · 3920 阅读 · 46 评论 -
JiebaAnalyzer 分词模式详解【搜索引擎系列教程】
是分词模式的关键参数,用于控制分词粒度。用户词典 > Jieba 默认词典:适用于搜索阶段,细粒度分词提升召回率:适用于索引阶段,粗粒度分词保证准确性通过和可优化分词质量。原创 2025-04-03 18:09:19 · 1259 阅读 · 6 评论 -
Lucene.Net FSDirectory 和 RAMDirectory 的区别和用法 【搜索引擎系列教程】
Lucene.Net中的和是两种不同的索引存储方式,它们在性能、用途和持久性上有显著差异。原创 2025-04-03 17:59:08 · 1290 阅读 · 1 评论 -
借助 Lucene.Net 构建站内搜索引擎(下)
借助 Lucene.Net 构建站内搜索引擎(下)前言:上一篇我们学习了Lucene.Net的基本概念、分词以及实现了一个最简单的搜索引擎,这一篇我们开始开发一个初具规模的站内搜索项目,通过开发站内搜索模块,我们可以方便地在项目中集成站内搜索功能。本次示例Demo麻雀虽小,五脏俱全,值得学习。一、项目初窥1.1 项目背景 本项目模拟一个BBS论坛的文章内容管理原创 2016-07-31 13:24:32 · 7062 阅读 · 4 评论 -
借助 Lucene.Net 构建站内搜索引擎(上)
借助 Lucene.Net 构建站内搜索引擎(上)前言:最近翻开了之前老杨(杨中科)的Lucene.Net站内搜索项目的教学视频,于是作为老杨脑残粉的我又跟着复习了一遍,学习途中做了一些笔记也就成了接下来您看到的这篇博文,仅仅是我的个人笔记,大神请呵呵一笑而过。相信做过站内搜索的.Net程序员应该对Lucene.Net不陌生,没做过的也许会问:就不是个查询嘛!为什么不能使用Like原创 2016-07-31 13:13:26 · 3149 阅读 · 1 评论 -
使用Lucene.Net实现全文检索
目录一Lucene.Net概述二 分词三 索引四 搜索五 实践中的问题一Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分。外围部分实现辅助功能,而核心部分包括:Lucene.Net.Index 提供索引管理,词组排序。Lucene.Net.Search 提供查询相关功能。Luce原创 2016-04-06 11:41:07 · 10598 阅读 · 1 评论 -
提高网站访问速度非常有用的方法
一、 网站程序中采用DIV+CSS这种模式,不用Table目前DIV+CSS是主流的编程语言,这与其体积小加载快的优点是密不可分的。主流的网站和CMS采用的也都是这种模式。因此建议大家也采用这种模式来编程,而不要采用原始的Table结构。Table结构不但管理不方便,网页体积也会变大,降低网站的加载速度。二、 采用Gzip技术对网页进行压缩采用Gzip技术对网原创 2016-04-06 11:57:24 · 1852 阅读 · 0 评论
分享