- 博客(7)
- 收藏
- 关注
原创 大数据组件Kafka简单介绍
Apache Kafka 是一个分布式流处理平台,主要用于构建实时数据流应用程序。它具有高吞吐量、持久性、可伸缩性和容错性等特点,被广泛应用于日志聚合、事件处理、实时分析等场景。
2024-05-06 20:45:35
807
1
原创 Kylin总结
Kylin 是一个开源的分布式分析引擎,旨在提供高性能、高可扩展性的 OLAP(联机分析处理)服务。:Kylin 提供了方便的安装包和文档,使得部署和管理变得相对简单。通过简单的配置和命令即可搭建起一个 Kylin 集群,并通过 Web UI 进行监控和管理。:Kylin 使用了多维数据模型和预计算技术,在查询处理方面表现出色。它能够快速响应复杂的 OLAP 查询,支持快速的多维分析和数据挖掘操作。
2024-05-05 11:14:40
228
原创 Faiss:高性能相似性搜索引擎
准备数据集: 将需要进行相似性搜索的特征向量准备好,并将其加载到Faiss中。建立索引: 选择合适的索引结构,根据数据集建立索引。进行搜索: 使用已建立的索引进行相似性搜索,找到与查询向量最相似的向量。Faiss 是一个强大的相似性搜索引擎,提供了高效的索引结构和搜索算法,能够快速处理大规模特征向量数据集。如果你需要进行相似性搜索,不妨尝试使用 Faiss 来获得更好的性能和效果!
2024-05-05 11:09:50
144
原创 Apache Storm:实时流数据处理的强力引擎
Apache Storm 是一个开源的、分布式的实时流数据处理系统。它允许您处理海量数据流,几乎实时地进行分析、处理和计算。让我们来看看它是如何工作的。Apache Storm 是一个功能强大且灵活的实时流数据处理系统,适用于各种大数据应用场景。如果您需要处理大规模实时数据,Storm 绝对值得一试!欢迎深入了解 Storm,并发现它在实时数据处理领域的无限可能性!
2024-05-05 11:06:32
743
原创 Pandas 透视表和交叉表
透视表和交叉表都是在数据分析中用于汇总和分析数据的工具,它们背后的数学原理有些类似,但也有一些不同之处。文末附有ppt
2024-05-05 10:57:09
1558
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人