搜索引擎
幸运小猴子
这个作者很懒,什么都没留下…
展开
-
搜索引擎
搜索引擎分类:全文搜索:1.从互联网上抓取网页,利用能够从互联网上自动收集网页的蜘蛛系统程序,自动访问互联网,并沿着任何网页中所有URL爬到其他网页,重复这个过程,并把爬过的素有网页收集回来。2.由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL,编码类型,页面内容包含的滚见此,关键词位置,生成时间,大小,与其他网页的连接关系等),并根据一定的相关度算法进行大量的复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后利用这些相关信息建立网页索原创 2020-08-16 23:20:17 · 1217 阅读 · 0 评论 -
TF
TF-IDF 特征权重计算Tf就是词频因子,也就是一个单词在文档中出现的次数。具体计算方法,最直接的就是利用词频数,也可以采用词频数取log值,还有增强型规范化tf,对长文档的一种抑制。用单词实际词频除以文档中最高的词频。IDF逆文档频率因子log (N/nk)N代表文档集合中总共有多少个文档,nk代表特征单词k在其中多少个文档中出现过。代表的是文档集合范围的一种全局因子。越多的文档包含某个单词,其IDF权值越小。BM25模型...原创 2021-07-09 07:02:11 · 192 阅读 · 0 评论 -
K-means以及Faiss聚类
K-meansK-means 是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。算法步骤:1.选择初始化的k个样本作为初始聚类中心 :a=a1,a2,...aka=a_1,a_2,...a_ka=a1,a2,...ak;2.针对数据集中每个样本xix_ixi,计算它到k个聚类中心的距离,并将其分到距离最小的聚类中心所对应的类中;3.针对每个类别aja_jaj,重新计算它的聚类中心aj=1ci∑x∈cixa_j=\frac{1}{c_i}\sum_{x\in{c_原创 2022-04-07 16:01:24 · 3113 阅读 · 0 评论 -
ES
Restful:GET请求:GET index 查询索引信息GET index/type/doc_id 查询指定的文档信息POST请求:POST index/type 创建文档POST index/type/_search 查询文档POST index/type/_update 修改文档PUT请求:PUT index 创建索引PUT index/type/doc_id 创建文档PUT index/type/_mappings 创建索引时,指定索引文档存储的属性信息DELETE请求:原创 2020-09-23 10:09:02 · 115 阅读 · 0 评论 -
知识图谱
多关系图一般包含多种类型的节点和多种类型的边。 在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。这也是为什么它可以用来回答一些搜索相关问题的原因,比如在Google搜索引擎里输入“Who is the wife of Bill Gates?”,我们直接可以得到答案-“Melinda Gates”。这是因为我们在系统层面上已经创建好了一个包含“Bill Gates”和“原创 2020-08-24 17:17:46 · 992 阅读 · 0 评论 -
搜索引擎
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。 (1)爬行:搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接原创 2020-08-24 11:55:07 · 964 阅读 · 0 评论