余镇源 搜索引擎学习笔记|solr|solrCloud|lucene|zoie|hadoop

搜索引擎相关学习笔记|solr|solrCloud|lucene|zoie|hadoop|数据结构|算法|java|c++|linux|tomcat|...

Lucene DocValues详解

转载,原文来自  http://blog.csdn.net/zteny/article/details/60633374 今天斗胆来试试DocValues,对于DocValues我想大家都不会觉得陌生,同时又不是非常熟悉,就是那种熟悉而又陌生的感觉。 一、docValues...

2017-03-07 13:55:09

阅读数 971

评论数 1

solr4.7分片shard对应的range值变为null异常问题处理(bug)

solr分片shard对应的range值变为null异常问题处理 选 用的solr是solr4.7版本! solr分片突然发现多个collections上某些shard对应的range值变为null,而且还多一个parent:null

2016-10-31 17:17:36

阅读数 1880

评论数 0

hive 表注释乱码以及show create table语句描述乱码解决

hive 表注释乱码以及show create table语句描述乱码解决

2016-03-15 14:58:56

阅读数 9727

评论数 0

Spark累加器使用

Spark累加器使用 使用spark累加器,解决视频平均播放数计算,以及视频播放数平方和平均值 val totalTimes=sc.accumulator(0l) val totalVids=sc.accumulator(0) val totalPow2Times=sc.accumulat...

2014-11-27 17:56:16

阅读数 8058

评论数 0

Spark学习笔记

spark学习笔记 join跟union方法测试效果 join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W)) 测试过如果  没有join到的key,就没有数据,也就是两个RDD没有共同的K,则没有相应的...

2014-10-27 14:00:52

阅读数 3060

评论数 0

solrCloud 4.7 分布式搜索重要bug

solr开源社区真的很强大 ,当很多人在使用一个开源系统的时候 ,缺陷或者有bug的功能更快被使用者提出来解决,异或是有人跟你出现同样的问题,并提出解决方案,当你要使用选择某个发布版本的时候,有一个重要习惯就是看发布版本之后的另一个版本开发中,已处理了哪些bug或者哪些功能在完善。我想这就是我一直...

2014-03-22 15:06:52

阅读数 4129

评论数 1

推荐视频反馈系统设计

反馈系统设计 日志收集:     展示: 带多一个vids参数,表示展示相关的视频集合,按展示顺序拼接起来  show_vids=12_32_32_32 点击:    现有from_vid=1&to_vid=2   从哪个视频点击到哪个视频情况  日志计算:(MR程序实现)...

2014-03-07 18:37:38

阅读数 3066

评论数 0

Solr Search Request Handling

Solr Search Request Handling 转贴请声明原文: solr SearchHandler的处理流程图大概如下:

2014-01-15 10:19:42

阅读数 3576

评论数 2

solrCloud Update Request Handling 更新索引流程

在之前写过另一篇学习笔记 :  solrCloud 索引更新逻辑学习笔记 今天再画了一个solrCloud更新流程图看起来会比较更清晰一些: solrCloud Update Request Handling:

2013-11-29 10:56:53

阅读数 5454

评论数 2

solrCloud分布式检索流程

好久没写solr的文章了,刚好需要在公司作个分享,先总结一些先。 solrCloud分布式检索主要流程如下: 搜索   video,“美女斗秀场” 取按相关度排序取得2条记录~ 过程是: 从集群里得知:video—>两个分片信息 所以请求被并行分发到两个分片搜索,各自取to...

2013-11-28 23:49:28

阅读数 5212

评论数 2

单机对大数据的排序处理

引用请声明原文:http://blog.csdn.net/duck_genuine/article/details/9155705 由于引用数据以hash的方式放在不同的文件里需要将其合并排序写到一个文件。数据量暂时是有几千万级别。 文件的每行是一条json格式的记录,格式如下:  { ...

2013-06-23 16:49:47

阅读数 4126

评论数 4

重新拿起hadoop

为了将多数据源整到hadoop上,将每个表导到hive上,再做大表join,变成一个越级大表,作为某一个搜索业务的数据源,然后再将建索引程序整成MR程序!   为此重新再学起hadoop。先分享一下几个好东西! hadoop原理介绍 http://tech.uc.c...

2013-06-08 13:42:18

阅读数 3308

评论数 4

搜索架构更换solrCloud总结

转贴请声明引用:http://blog.csdn.net/duck_genuine/article/details/8826572 新搜索架构是基于SolrCloud和indexing建索引框架技术的⼀一个分布式垂直搜索。 主要开源工具:zookeeper、ganglia、tcpcopy...

2013-04-19 23:57:11

阅读数 12250

评论数 13

基于solr做的推荐引擎思路

转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/8776872 基于用户相似推荐简单设计思路 doc1->user1,user2,user3 doc2->user3 doc3->user2,user3 ...

2013-04-09 11:45:11

阅读数 5984

评论数 0

SolrCloud使用问题记录

转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/8749121 可以在solr.xml上配置 shardHandlerFactory,这样不用在solrconfig.xml配置重复, 单独配置,可以给所有searcha...

2013-04-01 23:50:29

阅读数 5212

评论数 0

SolrCloud你值得拥有,性能表现良好

转贴请声明原文: http://blog.csdn.net/duck_genuine/article/details/8644412 solrCloud的压力测试: 上一篇文章提过使用solr3.6做的架构优化。solr 搜索架构优化 测试的时候还没有做更大数据量的并发请求压测试,最近来了新...

2013-03-06 23:52:51

阅读数 10878

评论数 4

solr4.1正式发布了

solr4.0 bug太多,终于等到solr4.1发布了 赶紧下载体验一下: http://lucene.apache.org/solr/ 更新说明如下: release http://mirrors.tuna.tsinghua.edu.cn/apache/l...

2013-01-23 09:51:16

阅读数 3396

评论数 1

solrCloud选举leader的逻辑分析

solrCloud选举leader的逻辑分析 转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/8491901 First call *setup(ElectionContext) to ensure the election ...

2013-01-11 00:05:30

阅读数 4773

评论数 0

solr的随机排序

转贴请声明原文:solr的随机排序 有这样的一种需求,想从索引库里随机取出4条记录。 在 schema.xml:配置一个动态字段,如下。具体实现可以看代码 org.apache.solr.schema.RandomSortField ... ...

2013-01-07 15:40:48

阅读数 7091

评论数 2

solrCloud 索引更新逻辑学习笔记

转发请声明原文:http://blog.csdn.net/duck_genuine/article/details/8473502 ZkCoreNodeProps 封装了一个node的相关信息,包括base_url,core_name,state,node_name,core_url,i...

2013-01-06 16:14:33

阅读数 7952

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭