![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式
文章平均质量分 92
NoOne-csdn
永远年轻,永远热泪盈眶
展开
-
pyspark group之后展开列表,计算列表个数
背景+-----------+-----------+|question_id|user_answer|+-----------+-----------+| 30530| 122306,|| 30548| 122378,|| 30451| 121990,|| 30530| 122304,|| 30548| 122378,|| 30451| 121990,|| 30530| 12原创 2020-06-03 15:12:42 · 1133 阅读 · 0 评论 -
分布式实时消息平台NSQ
转载分布式实时消息平台NSQNSQNSQ是一个基于Go语言的分布式实时消息平台,它基于MIT开源协议发布,由bitly公司开源出来的一款简单易用的消息中间件。NSQ可用于大规模系统中的实时消息服务,并且每天能够处理数亿级别的消息,其设计目标是为在分布式环境下运行的去中心化服务提供一个强大的基础架构。NSQ具有分布式、去中心化的拓扑结构,该结构具有无单点故障、故障容错、高可用性以及能够保证消...转载 2019-10-24 10:04:08 · 398 阅读 · 0 评论 -
zookeeper基本概念和原理
zookeeper是什么zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件,它是集群的管理者,监视着集群中各个节点的状态,根据节点的反馈进行下一步合理的操作。最终将,简单易用的接口和性能高效、功能稳定的系统提供给用户。ZK原理核心是原子广播,这个机制保证了各个server之间的同步。实现...转载 2019-03-19 10:45:56 · 199 阅读 · 0 评论 -
ETCD概念及原理
什么是etcdetcd 是一个分布式键值对存储,设计用来可靠而快速的保存关键数据并提供访问。通过分布式锁,leader选举和写屏障(write barriers)来实现可靠的分布式协作。etcd集群是为高可用,持久性数据存储和检索而准备。"etcd"这个名字源于两个想法,即 unix “/etc” 文件夹和分布式系统"d"istibuted。 “/etc” 文件夹为单个系统存储配置数据的地...转载 2019-03-19 12:12:11 · 5068 阅读 · 1 评论 -
pyspark.sql module 之SparkSession(待续)
Mocule ContextSpark SQL 和DF重要的类类名说明SparkSessionDF以及SQL的入口DataFrame分布式数据集ColumnDF的一列RowDF的一行GroupedDatadf.groupBy()的一些操作方法DataFrameNafunction处理缺失数据的方法DataFrameStatFu...原创 2019-08-15 16:28:36 · 1269 阅读 · 0 评论 -
pyspark.sql之DataFrame
DataFrameagg(*exprs) 同df.groupBy.agg()df.agg({"age":"sum"}).show()±-------+|sum(age)|±-------+| 13|±-------+df.agg({"age":"min"}).show()±-------+|min(age)|±-------+| 1|±-...原创 2019-08-16 09:39:54 · 482 阅读 · 0 评论 -
spark persist cache()以及StorageLevel
cache() 以及persist()都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间cache()区别cache()的缓存机制为MEMORY_AND_DISK。即RDD的数据直接以Java对象的形式存储于JVM的内存中,如果内存空间不中,某些分区的数据会被存储至磁盘,使用的时候从磁盘读取。persist()persist的默认缓存机制为s...原创 2019-08-16 10:21:37 · 2133 阅读 · 0 评论