自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 相关性算法--Elasticsearch相关性算法

Elasticsearch相关性算法Elasticsearch相关性算法主要分为三大部分:布尔模型,TF/IDF,向量空间模型布尔模型:and,or,not根据这些条件来匹配文档,判断搜索词是否在文档中。TF/IDF:相关性算法--TF/IDF 这篇文章里已经介绍了相关内容,计算词频的一种方法。空间向量模型:每个词的在文档的集合中都有自己的权重,比如词A的权重为2,词B的权重为5,...

2019-07-23 16:11:54 2692

原创 相关性算法--BM25

相关性算法--BM25BM25是计算词对于文档相关性的算法,可以简单的拆解为3个部分第一部分:IDF(逆向文档频率),之前我们说过TF/IDF算法的时候讲过 IDF,IDF就是指集合中的总文档数 / 包含搜索词的文档数,包含这个词的文档数越少,就越能体现这个词的代表性,相关度就越高。第二部分:TF(词频),在TF/IDF中我们也谈到了,当一个词在文档中出现的次数越多,就代表这个词在文章...

2019-07-23 15:41:40 1007

原创 相关性算法TF/IDF

TF/IDF算法简称词频/逆向文档频率例子:文档1:我爱你中国,亲爱的母亲。(我爱你 中国 亲爱的 母亲)文档2:中国的复兴梦。(中国复兴 梦)文档3:热爱祖国,热爱人民(热爱 祖国 人民)TF(词频):一个词在文档中出现的频率,比如搜索 ‘中国’ 一词,在文档一中出现的次数为1词,我们可以简单的把词频看作是1,‘热爱’ 在文档3中出现的频率就为2。IDF(逆向文档频率)...

2019-07-23 12:09:26 800

原创 Elasticsearch--集群,节点,索引,分片

这一篇主要介绍下Elasticsearch的基础概念信息,分别是集群,节点,分片。什么是集群?集群呢,顾名思义,就是一个大的集合,这个集合里面包含很多基友相同属性的元素。对于Elasticsearch来说,一个集群就是多个Elasticsearch实例的集合。每个实例可以通过集群名和ip配置互相发现,在同一集群下的所有实例就构成了一个Elasticsearch集群,单个实例也可以构成一个集...

2019-07-03 18:03:04 1201

原创 Elasticsearch--倒排索引

​Elasticsearch--倒排索引什么是倒排索引?例如,mysql中有数据表user,表中含有两个字段,主键userId,和姓名userName。user表 userId userName 1000 小明 1001 小强 由于userId是主键,在数据量巨大的情况下我们可以通过主键索引快速的找到某一个userId下的userName。反之想要通过u...

2019-06-25 00:38:32 288

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除