【Spark ML】 K-means聚类算法

K-means是机器学习中一个比较经典的聚类算法,所谓聚类就是将一个数据集划分为k个子集,使得每个子集中的样本尽可能相似(高相似度),而不同子集中的样本尽可能不同(低相似度)。这里的每个子集又称为“簇”。

2018-04-14 17:43:46

阅读数 1086

评论数 0

【Spark编程】分组取TopN

这篇文章主要介绍在Spark中如何分组取TopN元素的两种方法,第一种方法基于Spark SQL的窗口函数实现,第二种方法基于原生的RDD接口实现。 1、构造数据 首先我们构造一份班级的成绩数据,这份数据有三列组成,第一列是考试科目category,...

2018-04-06 11:17:51

阅读数 1186

评论数 2

【Redis源码剖析】 - Redis持久化之AOF

原创作品,转载请标明:http://blog.csdn.net/xiejingfa/article/details/51644390 Redis源码剖析系列文章汇总:传送门 Redis提供了两种持久化方法:RDB和AOF。在前面一篇文章中我们已经介绍过RDB持久化机制,今天我们来看看AOF持久...

2016-06-12 18:24:02

阅读数 9208

评论数 0

【Redis源码剖析】 - Redis持久化之RDB

原创作品,转载请标明:http://blog.csdn.net/xiejingfa/article/details/51553370 Redis源码剖析系列文章汇总:传送门 Redis是一个高效的内存数据库,所有的数据都存放在内存中。我们知道,内存中的信息会随着进程的退出或机器的宕机而消失。为...

2016-06-02 09:50:59

阅读数 10699

评论数 0

【Redis源码剖析】 - Redis IO操作之rio

原创作品,转载请标明:http://blog.csdn.net/xiejingfa/article/details/51433696 Redis源码剖析系列文章汇总:传送门 Reids内部封装了一个I/O层,称之为rio。今天我们就来简单介绍一下rio模块的具体实现。 本文主要涉及rio.h...

2016-05-17 10:37:25

阅读数 5538

评论数 0

【Redis源码剖析】 - Redis之数据库redisDb

原创作品,转载请标明:http://blog.csdn.net/xiejingfa/article/details/51321282 Redis源码剖析系列文章汇总:传送门 今天,我们来讨论两点内容:一是Redis是如何存储类型对象的,二是Redis如何实现键的过期操作。 本文介绍的内容主要...

2016-05-05 21:38:05

阅读数 11565

评论数 1

【Redis源码剖析】 - Redis之事务的实现原理

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/51262268 Redis源码剖析系列文章汇总:传送门 今天为大家带来Redis中事务部分的源码分析。Redis的事务机制允许将多个命令当做一个独立的单元运行,主要包括mult...

2016-04-27 20:03:44

阅读数 15167

评论数 3

【Redis源码剖析】 - Redis数据类型之有序集合zset

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/51231967 Redis源码剖析系列文章汇总:传送门 这周事情比较多,原本计划每周写两篇文章的任务看来是完不成了。今天为大家带来有序集合zset的源码分析。 Redis中的...

2016-04-24 14:59:55

阅读数 9028

评论数 4

【Redis源码剖析】 - Redis数据类型之列表List

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/51166709 Redis源码剖析系列文章汇总:传送门 今天为大家带来Redis五大数据类型之一 – List的源码分析。 Redis中的List类型是一种双向链表结构,...

2016-04-16 16:30:24

阅读数 6473

评论数 0

【Redis源码剖析】 - Redis数据类型之redisObject

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/51140041 Redis源码剖析系列文章汇总:传送门 在前面六篇文章中,我们逐一分析了字符串sds、双向链表list、字典dict、压缩列表ziplist、压缩字典zipma...

2016-04-13 09:54:48

阅读数 6665

评论数 0

【Redis源码剖析】 - Reids内置数据结构之整数集合intset

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/51124203 Redis源码剖析系列文章汇总:传送门 今天我们来介绍Redis中一个比较简单的内置数据结构 – 整数集合intset。 1、intset存储结构 整数...

2016-04-11 18:57:45

阅读数 4352

评论数 0

【Redis源码剖析】 - Redis内置数据结构之压缩字典zipmap

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/51111230 Redis源码剖析系列文章汇总:传送门 今天为大家带来Redis中zipmap数据结构的分析,该结构定义在zipmap.h和zipmap.c文件中。我把zipm...

2016-04-10 10:44:41

阅读数 4822

评论数 0

【Redis源码剖析】 - Redis内置数据结构之压缩列表ziplist

Redis提供了一种称作ziplist的数据结构,称作压缩列表。ziplist使用一串字符串来实现双向链表结构。与list结构相比,ziplist可以减少存储空间(主要是节省了链表指针的存储空间开销),ziplist在实现上并不存储上指向上一个链表节点和指向下一个链表节点的指针,而转为存储上一个节...

2016-04-06 13:53:30

阅读数 6566

评论数 0

【Redis源码剖析】 - Redis内置数据结构之字典dict

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/51018337 Redis源码剖析系列文章汇总:传送门 今天我们来讲讲Redis中的哈希表。哈希表在C++中对应的是map数据结构,但在Redis中称作dict(字典)。Red...

2016-03-30 19:08:01

阅读数 38842

评论数 8

【Redis源码剖析】 - Redis内置数据结构之字符串sds

今天花了一个晚上的时间分析了Redis中字符串操作的实现,源文件为sds.h和sds.c。

2016-03-28 21:07:56

阅读数 4921

评论数 4

【Redis源码剖析】 - Redis内置数据结构之双向链表list

原创作品,转载请标明:http://blog.csdn.net/Xiejingfa/article/details/50938028 Redis源码剖析系列文章汇总:传送门 在《Redis学习笔记》系列的前面几篇文章中,我们分别讲述了Redis的几种常用数据结构(分别是string、hash、...

2016-03-20 19:43:34

阅读数 3080

评论数 0

【Linux进程间通信】 - 消息队列

今天我们来介绍一下如何使用消息队列来进行进程间通信。1、消息队列消息队列是由内核维护的一种链式结构。链表中每一个记录又称作消息,消息具有特定的格式和优先级别。各个进程通过消息队列标识符来引用消息队列,这样,写进程叫可以按照一定的规则添加新的消息,读进程可以按一定的规则取走消息(具体按什么规则我们稍...

2016-03-19 15:37:09

阅读数 1546

评论数 0

【Linux进程间通信】 - 信号量

前面我们在介绍共享内存(传送门: 【Linux进程间通信】 - 共享内存)这种进程间通信时方式时提到,使用共享内存通信时需要使用同步机制来控制多个进程对统一内存区的读写操作。今天我们就来讲述一种常用的多进程共同机制 – 信号量。1、什么是信号量?在多进程环境下,为了防止多个进程同时访问一个公共资源...

2016-03-16 17:01:01

阅读数 2061

评论数 0

【Linux进程间通信】 - 共享内存

今天我们来介绍Linux下最高效的一种进程间通信方式 – 共享内存。什么是共享内存?顾名思义,共享内存就是两个(或多个)进程共同占有一段内存空间,这些进程可以是有亲缘关系的进程,也可以是完全不相关的进程。同一块物理内存空间被映射到两个进程,两个进程都可以访问这段共享空间从而实现了进程间通信。

2016-03-14 20:54:38

阅读数 4612

评论数 0

【Linux进程间通信】 - 命名管道FIFO

在前面一篇文章中【Linux进程间通信】 - 匿名管道中,我们介绍了Linux/Unix系统中最古老的一种进程间通信方式 – 匿名管道。此外,我们也讲解了匿名管道的几个局限性,特别是匿名管道只能用于父子进程或兄弟进程间,无法在不相关的进程间交换数据。为了克服匿名管道的这个限制,有人又提出了一种...

2016-03-08 16:55:44

阅读数 2036

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭