关闭

Fleury(弗罗莱)算法求欧拉路径

上面是摘自图论书上的定义。 算法在运行过程中删除了所有已走的路径,也就是说途中残留了所有没有行走的边。根据割边的定义,如果在搜索过程中遇到割边意味着当前的搜索路径需要改进,即提前输出某一个联通子集的访问序列,这样就能够保证访问完其中联通子图中后再通过割边访问后一个联通子图,最后再沿原路输出一开始到达该点的路径。如果只有割边可以扩展的话,只需要考虑先输出割边的另一部分联通子集访问序列。 样例图:...
阅读(41) 评论(0)

最小生成树-Prim算法和Kruskal算法

Prim算法 1.概览 普里姆算法(Prim算法),图论中的一种算法,可在加权连通图里搜索最小生成树。意即由此算法搜索到的边子集所构成的树中,不但包括了连通图里的所有顶点(英语:Vertex (graph theory)),且其所有边的权值之和亦为最小。该算法于1930年由捷克数学家沃伊捷赫·亚尔尼克(英语:Vojtěch Jarník)发现;并在1957年由美国计算机科学家罗伯特·普...
阅读(66) 评论(0)

Warshall传递闭包算法的学习与实现

1、问题引入   一个有n个顶点的有向图的传递闭包为:有向图中的初始路径可达情况可以参见其邻接矩阵A,邻接矩阵中A[i,j]表示i到j是否直接可达,若直接可达,则A[i,j]记为1,否则记为0;两个有向图中i到j有路径表示从i点开始经过其他点(或者不经过其他点)能够到达j点,如果i到j有路径,则将T[i,j]设置为1,否则设置为0;有向图的传递闭包表示从邻接矩阵A出发,求的所有节点间的路径可达情...
阅读(38) 评论(0)

异常数据剔除

1.在SPSS中做箱型图,图中可以显示异常值,然后剔除。但问题是大数据,采用箱形图已经不显示了 2.拉依达准则法(3δ):简单,无需查表。测量次数较多或要求不高时用。是最常用的异常值判定与剔除准则。但当测量次数《=10次时,该准则失效。 如果实验数据值的总体x是服从正态分布的,则 式中,μ与σ分别表示正态总体的数学期望和标准差。此时,在实验数据值中出现大于μ+3σ或小于μ—3σ数据值的概率是...
阅读(67) 评论(0)

加权几何平均数

 加权几何平均数的概述   根据统计资料的不同,几何平均数也有简单几何平均数和加权几何平均数之分。   加权几何平均数,是统计学中的一种动态平均指标,多是指社会经济现象的同质总体在时间上变动速度的平均数。加权几何平均数是各标志值fi次方的连乘积的次方根。   当各个变量值的次数(权数)不相同时,应采用加权几何平均数 。 加权几何平均数的计算公式    ...
阅读(76) 评论(0)

java内存区域与内存溢出异常

java虚拟机的基本结构 类加载子系统     类加载子系统负责从文件系统或者网络中加载Class信息,加载的类信息存放于一块称为方法区的内存空间。除了类的信息外,方法区中可能还会存放运行时常量池信息,包括字符串字面量和数字常量(这部分常量信息是Class文件中常量池部分的内存映射)。 程序计数器     程序计数器是一块较小的内存空间,可以看作是当前线程所执行的字节码的行号指示器...
阅读(65) 评论(0)

spark中的RDD持久化

rdd的全称为Resilient Distributed Datasets(弹性分布式数据集) rdd的操作有两种transfrom和action。 transfrom并不引发真正的rdd计算,action才会引发真正的rdd计算。 rdd的持久化是便于rdd计算的重复使用。 官方的api说明如下: persist(storageLevel=StorageLevel(False,...
阅读(73) 评论(0)

服务器架构

作者:牛浩帆 链接:https://www.zhihu.com/question/20657269/answer/15763722 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 [只是大框架介绍,实际使用中的不容易注意的细节太多了,需要经验的积累,才能运用娴熟] 以下的架构都是在假设已经优化过linux内核的情况下进行 初级篇:(单机模式) ...
阅读(45) 评论(0)

大型网站服务器架构

1. 初始阶段的网站架构 一般来讲,大型网站都是从小型网站发展而来,一开始的架构都比较简单,随着业务复杂和用户量的激增,才开始做很多架构上的改进。当它还是小型网站的时候,没有太多访客,一般来讲只需要一台服务器就够了,这时应用程序、数据库、文件等所有资源都在一台服务器上,网站架构如下图所示: 2. 应用服务和数据服务分离 随着网站业务的发展和用户量的增加,一台服务器就无法再满足...
阅读(71) 评论(0)

zookeeper原理

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee...
阅读(103) 评论(0)

MapReduce原理

开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架...
阅读(102) 评论(0)

HITS算法--从原理到实现

1. 算法来源 1999年,Jon Kleinberg 提出了HITS算法。作为几乎是与PageRank同一时期被提出的算法,HITS同样以更精确的搜索为目的,并到今天仍然是一个优秀的算法。 HITS算法的全称是Hyperlink-Induced Topic Search。在HITS算法中,每个页面被赋予两个属性:hub属性和authority属性。同时,网页被分为两种:hub页面和autho...
阅读(70) 评论(0)

群体智能优化算法之粒子群优化算法

阅读目录 1. 常见的群体智能优化算法分类2. 粒子群优化算法思想3. 粒子群优化算法的基本框架4. 对粒子群优化算法中惯性权重的认识5. 粒子群优化算法举例——求解旅行商问题6. 参考文献   同进化算法(见博客《[Evolutionary Algorithm] 进化算法简介》,进化算法是受生物进化机制启发而产生的一系列算法)和人工神经网络算法(Neural Networks,简称N...
阅读(169) 评论(0)

非常好的理解遗传算法的例子

为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各     个主要执行步骤。         例:求下述二元函数的最大值:     (1) 个体编码            遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种        符号串。本题中,用无符号二进制整数来表示。            因 x1, x2 为 0 ~ ...
阅读(81) 评论(0)

序列化和反序列化

摘要   序列化和反序列化几乎是工程师们每天都要面对的事情,但是要精确掌握这两个概念并不容易:一方面,它们往往作为框架的一部分出现而湮没在框架之中;另一方面,它们会以其他更容易理解的概念出现,例如加密、持久化。然而,序列化和反序列化的选型却是系统设计或重构一个重要的环节,在分布式、大数据量系统设计里面更为显著。恰当的序列化协议不仅可以提高系统的通用性、强健性、安全性、优化系统性能,而且会让系统更...
阅读(34) 评论(0)
33条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:39570次
    • 积分:1971
    • 等级:
    • 排名:千里之外
    • 原创:159篇
    • 转载:17篇
    • 译文:1篇
    • 评论:1条
    最新评论
  • Spark RDD

    testcs_dn: 把一个超大的数据集,切分成N个小堆,Hadoop大文件并行处理不是这样做的吗?