TRIPOD
文章平均质量分 88
colorknight
这个作者很懒,什么都没留下…
展开
-
一款支持SQL+Lucene语法的实时数据匹配引擎够不够酷?
任何技术其实酷不酷不是最重要的,最重要的是实用。早在几年前,笔者实现了兼容Lucene语法的实时匹配引擎Tripod后,就曾考虑过是否会有这样一种场景,同时需要使用SQL+Lucene两种语法的能力来描述匹配条件,对数据进行实时匹配?因为事情较多,一时没有想到,就此搁下。 一晃差不多三年过去了,最近在一个项目中碰到了我的老本行--“安全日志分析”的需求。如今的日志分析已经有了专门的检测规则共享格式— sigma, 与我们早期无法打破安全知识与工程实现间的鸿沟相比,已经截然不同。工程实现者不用再原创 2022-07-03 15:26:15 · 1013 阅读 · 1 评论 -
如何实现实时文本过滤
对文本数据进行实时过滤的需求在舆情类系统的开发过程中经常碰到。如:对涉黄、涉政、涉恐文本的过滤;对广告数据的过滤;以及对非业务数据的过滤等。这些过滤需求由于比较难于描述其过滤规则,所有出现了很多分类算法用于对各类文本数据的分类过滤,这些算法在网上已经有很多文章进行了深入探讨,本文不再做赘述。本文将主要探讨一种基于规则的实时文本过滤技术。 在舆情系统的开发中,我们也时常会碰到基于规则定义的文本过滤需求。如:SSAS模式下的舆情系统,用户通过基于关键字的规则向舆情系统设定其感兴趣的...原创 2021-06-14 11:24:40 · 674 阅读 · 0 评论 -
如何用Lucene实现实时搜索--Tripod
网上有不少关于如何使用lucene完成实时搜索功能的文章。鉴于lucene的实现机制,绝大多数解决办法都是采用一定频率访问lucene索引,发现变更,然后搜索数据,返回结果。这种办法只能达到准实时效果,且会带来磁盘的I/O消耗。 抛开在lucene架构下能否找到更好的解决办法不谈,我们试着考虑到底是什么需求促使我们去寻找实时搜索lucene的解决方法的。想必大多数情况下,都是希望能够实时获取满足了某种条件的数据,而后对其进行计算或展示吧。既然如此,那么我们在对数据流处理时,直接...原创 2020-10-16 23:34:53 · 391 阅读 · 0 评论 -
基于lucene语法的实时文本搜索与匹配--Tripod
Tripod是一款基于lucene语法实现的,可对文本数据进行实时匹配的开源工具,其工程路径为https://github.com/colorknight/tripod.git。在一定场景中,使用它,可以节省对磁盘IO的消耗,提升应用的实时效果,且对于有lucene和elastic search使用经验的人而言几乎没有学习曲线。在很多文本处理的应用中,会有类似数据订阅的需求,即将客户关注的数据推送给客户。一种典型的实现是,我们会根据用户设定的关键词或规则,在lucene或elasticsearc...原创 2020-08-18 13:47:31 · 471 阅读 · 3 评论