大数据
文章平均质量分 84
Weirdo丨
Java、Go、C++资深爱好者
展开
-
大数据组件之Storm简介
Storm集群主要由Nimbus、Supervisor和Zookeeper组成。其中,Nimbus负责作业提交和状态监控,Supervisor负责作业的执行,而Zookeeper则提供分布式协调服务。这种架构使得Storm能够轻松应对大规模数据处理需求。Apache Storm作为一个分布式实时计算系统,在处理实时数据流方面具有显著优势。其高容错性、可扩展性和低延迟的特点使得它在众多大数据组件中脱颖而出。原创 2024-05-03 08:30:00 · 2 阅读 · 0 评论 -
Faiss原理和使用总结
具体来说,Faiss会把所有的向量数据组织成一种特殊的数据结构,这种数据结构能够在搜索时快速找到可能的候选向量,然后再从这些候选向量中选出最相似的那个。要找到最近邻的向量,最简单的方法是比较所有向量的距离,但这在大数据集上是非常耗时的。:Faiss是一个不断发展的工具,随着技术的进步和社区的努力,新的功能和优化策略会不断出现。:在处理文本数据时,我们可以把文本转换成向量的形式,然后使用Faiss来查找最相似的文本。你可以选择不同的索引类型,根据你的数据集大小和搜索需求来选择合适的类型。原创 2024-04-26 09:15:00 · 663 阅读 · 0 评论 -
kylin使用心得
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献到开源社区。它能在亚秒级查询PB级以上的数据,让分析师能够自由地探索数据。通过使用Kylin,体会到了它在大数据处理和分析方面的优势。Kylin以其高性能、预计算和多维分析能力,为我们提供了快速、准确的数据分析服务。在使用过程中,也积累了一些使用技巧和解决问题的经验,这些经验对于提高Kylin的使用效率和性能至关重要。原创 2024-04-24 09:15:00 · 511 阅读 · 0 评论