- 博客(4)
- 资源 (11)
- 收藏
- 关注
原创 Lucene系列-index弹性扩展
Lucene系列-index扩展Shard与ReplicaShard:index数据分片.当索引数据到达百亿级别的,单份数据索引读取和搜索都是非常耗时间的,即使在用earlytermination的情况下,latency也在100ms左右. 数据分片成shard,可以快速的提高搜索效率.Replica:shard的备份,在搜索QPS较高的时候,Replica可以提供搜索的吞吐量. 一般包含一个p
2015-11-19 11:46:46 798
原创 lucene系列-facet搜索
facet搜索,方面搜索,电商中使用的非常多.例如 统计field中值的分组分布情况, 只是每个域值中的命中数量.facet搜索主要用于:1.Facet Counting facet域值统计 2.Facet Associations facet域值分类匹配度.描述一个doc属于某一个category的程度. 3.Multiple Facet Requests 了解多个fecet的结果分布
2015-11-16 17:06:42 2013
原创 Lucene系列-Fieldcache
FiledCache介绍 Lucene作为列缓存, 可以获取设置了Filed.Store.Yes上的正排数据信息.通常IndexSearcher.doc(docId)获得Document的所有域值,访问速度比较慢.但是通过FieldCache读取doc的分片信息,速度可以提升很多. 注意:FieldCache并非在存储域中读取,而是在索引域中读取,从而不必构造Document对象,要求此索引域是
2015-11-16 13:12:31 1552
原创 Lucene系列-DocValues
DocValues简介 Lucene索引的存储一般都是以倒排拉链的方式(term-doc), 但是在搜索相关功能处理的时候,如排序,高亮,摘要信息的获取,需要通过文档docid找到相应的正排信息,在Lucene4.0中,引入了一个新字段类型DocValue,是一个以列为主的字段,具有在索引的时候构建的文档到值(document-to-value)的映射.这个方法保证减轻了一些字段缓存的内存要求,并
2015-11-16 11:24:14 5107
痛点:挖掘小数据满足用户需求
2020-09-28
Attention+is+All+You+Need.pdf
2019-09-16
google microsoft 算法面试神器 crack code interview.pdf
2013-08-13
新浪微博数据挖掘方案
2013-08-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人