分布式
文章平均质量分 83
Cherry Xie
喜欢学习,只是因为知识能让我更好地理解与处理遇到的事情
展开
-
分布式爬虫之Scrapy实例
在中间件中引入了 Redis 作为分布式去重存储。每个爬虫节点都会将已经抓取过的 URL 存入 Redis 集合中,避免重复抓取。process_request 方法会先检查 Redis 中是否已经存在该 URL,如果存在则跳过该请求。然后将 URL 推送到 Kafka 队列中。在 start_requests 方法中,爬虫节点会从 Kafka 消费任务,并再次检查 Redis 中是否已经抓取过该 URL,避免重复抓取。整个过程中,数据写入 Elasticsearch 的逻辑保持不变。原创 2024-05-27 08:39:47 · 335 阅读 · 0 评论 -
实时分析数据库之Druid
Druid是一个开源的实时分析数据存储和查询引擎,专门设计用于快速查询和分析大规模的实时和历史数据。它最初由MetaMarkets开发并于2015年开源。原创 2024-05-20 09:58:22 · 1638 阅读 · 0 评论 -
消息队列之Pulsar、kafaka、rabbitmq、mqtt、RocketMQ
Pulsar 具有高度可扩展的架构,可以处理大规模的实时数据流,并提供低延迟的消息传递。原创 2024-05-19 08:45:00 · 395 阅读 · 0 评论 -
数据仓库之ClickHouse
这种列式存储的特点使得ClickHouse在查询时可以只读取和处理所需的列数据,减少了不必要的数据读取和处理开销,提高了查询性能。你可以使用多种方式将数据加载到ClickHouse中,如使用ClickHouse提供的命令行工具、使用ClickHouse的客户端驱动程序编写自定义的数据导入脚本,或者使用ETL工具等。它可以处理海量的数据,并提供快速的查询和聚合功能,以支持复杂的数据分析任务。ClickHouse提供了近实时的数据处理和查询能力,可以在数据不断写入时进行并行的数据分析和查询操作。原创 2024-05-18 09:07:31 · 644 阅读 · 0 评论 -
数据仓库之StarRocks
Palo,中国的互联网公司百度开发并开源的,后更名为doris。StarRocks是一款由doris的一个分支演化而来的、开源分布式列式存储数据库。旨在提供高性能、高可靠性和低延迟的大数据分析和查询服务。原创 2024-05-16 08:48:32 · 1042 阅读 · 0 评论 -
StarRocks与ClickHouse
StarRocks采用多维分析模型(OLAP)的思想,支持星型模式和雪花型模式。它提供了维度和度量的概念,适用于多维数据分析。而ClickHouse则更加倾向于原始的列式存储模型,适用于海量数据的高性能查询。原创 2024-05-16 08:48:02 · 280 阅读 · 0 评论 -
消息队列之kafaka
消费者可以以不同的方式进行消息的获取,例如按照时间顺序、按照分区顺序或按照自定义的消费逻辑。每个消费者组都有一个唯一的标识符,并且每个分区只能被同一个消费者组中的一个消费者消费。当有多个消费者组订阅相同的主题时,消息将被复制并传递给每个消费者组的一个消费者。生产者将各种应用、系统或设备生成的日志数据发送到Kafka中,消费者可以实时消费这些日志数据进行实时分析、监控和报警等。多个消费者组可以同时消费同一个主题中的消息,每个消费者组内的消费者可以并行地消费各自分配的分区,从而有效地处理大规模的数据流。原创 2024-05-13 10:34:56 · 1293 阅读 · 0 评论