搜索引擎
文章平均质量分 72
饕子
我是北大信息管理系大数据管理与应用方向学生,我对人工智能、计算机视觉、计算机图形学、文本挖掘、搜索引擎、机器学习(深度学习)、计算神经科学、知识图谱、NLP等方向感兴趣。
展开
-
ELK Stack(Elasticsearch、Logstash、Kibana)详解
Elasticsearch是一个分布式、可扩展、实时的搜索和分析引擎,基于Apache Lucene。它通过建立索引和搜索文档,提供了强大的全文搜索和实时分析能力。Logstash是一款开源的数据收集和处理工具,用于采集、转换和传输各种类型的数据,例如日志文件、数据库中的数据等。它支持多种输入源和输出目的地。Kibana是一个开源的数据可视化平台,用于在Elasticsearch上进行数据分析和交互式查询。它提供了丰富的图表、表格和地图等可视化组件,帮助用户更好地理解和分析数据。原创 2023-07-24 15:20:24 · 347 阅读 · 0 评论 -
Elasticsearch简介与特点
Elasticsearch是一个基于Java的开源搜索引擎,采用分布式架构,可以快速地存储、搜索和分析大规模的数据。其主要特点包括可扩展性、实时性能和全文检索功能。Elasticsearch的分布式架构采用了主节点与数据节点的模式,可以配置成具有高可用性和容错性的集群。它通过将数据划分为多个分片(Shard)并存储在不同的节点上,实现了数据的并行处理和负载均衡。实时性是Elasticsearch的另一个重要特点。它能够在毫秒级别内对新数据进行索引,并提供准实时的搜索和分析功能。原创 2023-07-13 13:37:20 · 446 阅读 · 0 评论 -
Coarse Search简介
Coarse Search是一种快速筛选和匹配大规模数据集的搜索方法,以快速定位到感兴趣的信息。它使用的搜索条件通常较为宽泛,以获取初始的搜索结果或筛选条件,从而缩小进一步搜索的范围。快速性:Coarse Search能够快速处理大量数据并返回初步的搜索结果,节省了搜索时间和资源开销。粗略过滤:通过广泛的搜索条件,Coarse Search能够过滤掉非相关或不感兴趣的信息,提供更精准的搜索范围。高效性:Coarse Search可以在大规模数据集中快速定位到可能感兴趣的信息,从而提高后续搜索的效率。原创 2023-07-07 17:41:14 · 84 阅读 · 0 评论 -
TextRank,超全解释
TextRank算法是一种用于文本处理的算法,可以根据节点与节点之间的权重关系来提取文本中的关键信息。该算法使用了图形化模型和迭代计算方法来更新节点的权重值。本文详细介绍了TextRank算法的原理、应用、算法流程和公式解析等方面,以及其优缺点,希望对您有所帮助。原创 2023-06-15 10:23:07 · 4202 阅读 · 1 评论 -
BM25,超全解释
BM25算法是一种用于信息检索的算法,可以根据文档和查询条件之间的相似度来计算文档与查询条件之间的匹配程度得分。该算法考虑了文档长度、查询项频率和文档频率等因素,并在计算匹配得分时进行加权。本篇博客详细介绍了BM25算法的原理、应用、算法流程和公式解析等方面,以及其优缺点,希望对您有所帮助。原创 2023-06-15 10:17:39 · 4871 阅读 · 0 评论 -
LSA/LSI,超全解释
LSA/LSI技术是一种强大的自然语言处理技术,可以帮助我们挖掘文档集合中的隐含主题或概念,并分析它们之间的关系。本篇博客介绍了LSA/LSI技术的原理、应用和优缺点等方面,以及LSA/LSI算法流程,希望对大家有所帮助。原创 2023-06-15 10:16:34 · 556 阅读 · 0 评论 -
HITS算法学习笔记
HITS算法是一种基于链接分析的算法,通过对网页之间的链接关系进行分析,得出每个页面的Hub得分和Authority得分。在搜索引擎的排名中,HITS算法已经被广泛应用,并取得了不错的效果。原创 2023-06-07 19:39:41 · 598 阅读 · 0 评论 -
BM25F学习笔记
BM25F 算法是一种广泛应用于文本搜索引擎中的算法,它可以根据不同的字段、不同的权重对文档进行打分,从而提高检索结果的准确率和召回率。在实际应用中,可以根据具体场景对 BM25F 的参数进行调整,以达到更好的效果。原创 2023-06-06 14:06:45 · 244 阅读 · 0 评论 -
Whoosh教程
Whoosh 内置了一些分析器,但并不一定能够满足所有需求。我们可以使用自定义分析器来进行处理。以上代码为 Whoosh 提供了一个自定义的中文分析器,代替了默认的分析器。还可以通过自定义查询语法来扩展 Whoosh 的功能。以上代码为 Whoosh 提供了自定义的查询语法,允许在搜索时使用 ‘!’(非逻辑)、‘&’(与逻辑)、‘|’(或逻辑)进行条件的组合。本文介绍了 Whoosh 的基本概念、安装方法、建立索引、执行搜索以及自定义分析器和查询语法等内容。原创 2023-06-06 13:05:16 · 814 阅读 · 1 评论 -
Map-Rerank学习笔记
Map-Rerank 是一种基于搜索引擎的检索算法,可以在大规模数据集上进行高效的信息检索。如果您想了解更多关于 Map-Rerank 的信息,可以参考相关论文或者其官方文档。原创 2023-06-03 17:12:44 · 585 阅读 · 0 评论 -
PageRank中的阻尼系数
PageRank算法是一种经典的网络分析算法,可以用于评估网页的重要性和质量。阻尼系数在算法中发挥着重要的作用,可以限制小网站的重要性,同时提高大网站的影响力。虽然PageRank算法存在一些缺点,但其在搜索引擎排名中的应用仍然具有重要的意义。原创 2023-06-03 00:08:26 · 832 阅读 · 0 评论 -
主题检索算法学习笔记
主题检索算法是指从一堆文档中,找出与特定主题相关的文档的过程。主题检索算法可以帮助用户快速找到与自己需求相关的信息,提高检索效率。本文介绍了主题检索算法的定义、实现以及常见的主题检索算法。主题检索算法能够帮助用户快速地找到自己所需的信息,提高检索效率。原创 2023-05-18 20:28:39 · 90 阅读 · 0 评论 -
查询日志挖掘
本文介绍了查询日志挖掘的基础概念、数据预处理、查询分类、查询推荐、用户行为建模和异常检测等方面。查询日志挖掘可以帮助我们了解用户的需求、行为和兴趣,并从中发现有价值的知识。原创 2023-05-11 20:56:33 · 224 阅读 · 0 评论 -
搜索引擎:全文检索技术
全文检索技术是现代搜索引擎中的核心技术之一。它通过倒排索引和相似度计算等算法,帮助用户快速地从大量文本数据中找到符合自己需求的信息。了解全文检索技术的原理和应用对于搜索引擎优化和数据挖掘等方面都具有重要意义。原创 2023-05-08 10:33:04 · 425 阅读 · 0 评论 -
搜索引擎:向量空间模型
向量空间模型是信息检索领域中常用的一种检索模型。它将文本表示成向量形式,通过计算文本之间的相似度来实现文本的快速检索。了解向量空间模型的原理和应用对于信息检索领域的从业人员具有重要意义。原创 2023-05-08 10:31:34 · 314 阅读 · 0 评论 -
PageRank学习笔记
本文介绍了PageRank的相关概念、计算方法、调优技巧等内容。PageRank算法在搜索引擎领域具有非常重要的作用,它通过计算网页之间的链接关系来评估网页的重要性。了解PageRank算法的原理和应用对于搜索引擎优化和数据挖掘等方面都具有重要意义。原创 2023-05-08 10:32:43 · 282 阅读 · 0 评论 -
URI学习笔记
URI是用来标识互联网上的资源的字符串。URI包含URL和URN两种形式,其中URL是URI的一种常见形式,用于表示资源在网络上的位置,URN则用于表示资源的名称。本文介绍了URI的基础知识、组成部分和使用方法,URI是Web开发中非常重要的概念,希望本文能够对读者有所帮助。原创 2023-05-07 22:30:02 · 662 阅读 · 0 评论 -
Web环境下的信息资源组织
分类法是一种基于一定原则、按照一定规则将事物划分为相互独立、相互排斥、相互穷尽的若干个部分的方法。目录法是一种制作有序目录的方法,它通过对信息资源进行描述和分类,制作出系统化的目录,并按照特定的规则排列,以便用户快速查找所需信息资源。索引法是一种基于规范词语的组织方式,通过抽取信息资源中的关键词,建立索引,并按照一定的规则排列,以方便用户查找相关信息资源。标引法是在文献信息资源中提取主题词、关键词等,用规定的词语表示出来,并按照一定规律排列,形成检索工具的过程。原创 2023-05-07 22:28:54 · 106 阅读 · 0 评论 -
网络信息资源组织
分类法是一种基于一定原则、按照一定规则将事物划分为相互独立、相互排斥、相互穷尽的若干个部分的方法。目录法是一种制作有序目录的方法,它通过对信息资源进行描述和分类,制作出系统化的目录,并按照特定的规则排列,以便用户快速查找所需信息资源。索引法是一种基于规范词语的组织方式,通过抽取信息资源中的关键词,建立索引,并按照一定的规则排列,以方便用户查找相关信息资源。标引法是在文献信息资源中提取主题词、关键词等,用规定的词语表示出来,并按照一定规律排列,形成检索工具的过程。原创 2023-05-07 22:26:11 · 210 阅读 · 0 评论 -
自然语言的标引和检索
本文介绍了自然语言的标引和检索学习笔记。标引主要是将文献主题内容用规定的词语表示出来,并按照一定规律排列,形成检索工具的过程;检索模型则是用于描述信息检索的数学模型,按照不同的检索模型,信息检索可以分为布尔模型、向量空间模型和概率模型等。而自然语言处理技术则可以在检索中发挥重要作用。原创 2023-05-07 22:25:40 · 256 阅读 · 0 评论 -
FRBR学习笔记
FRBR是一个重要的文献资源组织框架,它将文献资源分为四个层次,并定义了多种关系。在实际应用中,我们可以根据需要来选择合适的技术和标准来进行FRBR模型的实现。原创 2023-05-07 22:09:40 · 415 阅读 · 0 评论 -
RDF学习笔记
RDF是一个非常丰富的模型,它可以让我们描述Web资源,并进行灵活的查询和推理。在实际应用中,我们可以根据需要来选择合适的语言和工具来进行使用。原创 2023-05-07 22:08:56 · 194 阅读 · 0 评论 -
语义网介绍
本文介绍了语义网的概念、核心技术和主要应用场景,可以看出,语义网技术对Web的发展具有重要的推动作用。在未来,随着人工智能、大数据、云计算等新技术的逐步成熟,语义网技术的应用前景将会更加广阔。原创 2023-05-05 19:05:23 · 448 阅读 · 0 评论 -
信息系统:如何给信息系统添加检索功能
在信息系统中,检索功能可以帮助用户快速地找到所需的信息,提高了用户的使用体验。本文将介绍如何为信息系统添加检索功能。原创 2023-05-05 17:07:03 · 188 阅读 · 0 评论