- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 kafka
KAFKA kafka简介 分布式流处理平台,可以实时简单处理流数据,而且是一个分布式的,容错的,多副本的临时存储系统。 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 一般应用在大数据日志处理或对实时性(少量延迟),可靠性(少量丢数据)要求稍低的场景使用。 官网:http://kafka.apache.org kafka特点: Apache...
2018-11-15 15:01:16 394 1
原创 消息队列
消息队列简介 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能,高可用,可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。 目前在生产环境,使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等。 消息队列应用场景介绍 以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流...
2018-11-10 21:25:22 169
原创 Spark --补充
RDD 编程补充: 1.数值RDD的统计操作 Spark对包含数值数据的RDD提供了一些描述性的统计操作,Spark的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats()时通过一次遍历数据计算出来,并以StatsCounter对象返回。 方法 含义 count() RDD中的元素个数 mean() 元素的平均值 sum() ...
2018-11-10 21:04:18 284
原创 Spark Streaming
Spark Streaming SparkStreaming概述 SparkStreaming概念 Spark Streaming类似于Apache Storm,用于流式数据的处理。 官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输...
2018-11-10 20:54:32 419
原创 Spark SQL and DataFrames
Spark SQL and DataFrames Spark SQL Spark SQL概述 什么是Spark SQL? SparkSQL是spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrames,并且作为分布式SQL查询引擎的作用。 为什么要学SparkSQL? SparkSQL将Spark SQL转换为RDD,然后提交到集群执行,执行效率非常快,比如hive是将hi...
2018-11-09 21:14:04 643
飞行棋,通过设置关卡,竞速小游戏
2018-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人