大数据
TreeNewKing
这个作者很懒,什么都没留下…
展开
-
TF-IDF_随笔
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度其中TF(Term Frequency),词频。公式如下:某个文件中出现的次数除以整个所有文件中出现的次数。计算出词频IDF(inverse document frequency)逆文本概率,公式如下:,总文本的数量除以出现该词汇的文本舒取以1为底的对数。总结:其中idf其实算是一个系数(稀有系数),idf系数大于0,当分母趋于0(即这个词语在全部文本中几乎没怎么出现时)。稀有指数趋于正无穷。所以一个原创 2022-07-10 10:19:04 · 177 阅读 · 0 评论 -
esDSL查询_随笔
案例布尔查询和最佳匹配查询的区别:两者使用类似。但是布尔查询的时候:评分时会让每个查询都去做一个计算最后取平均。而最佳匹配会找出最匹配的一个查询去做评分。可以使用query字段对子查询进行标记。满足子查询的结果将被打上标记。https://opster.com/guides/elasticsearch/search-apis/named-queries/查询结果:Boosting query需要做降级处理时可以使用这个查询。(而不是一般查询的直接排除,只是降级)。demo:其中需要查询的内容放原创 2022-07-08 20:06:32 · 345 阅读 · 1 评论