2017年08月_陈伟chenwei

原创 Fleury（弗罗莱）算法求欧拉路径

上面是摘自图论书上的定义。算法在运行过程中删除了所有已走的路径，也就是说途中残留了所有没有行走的边。根据割边的定义，如果在搜索过程中遇到割边意味着当前的搜索路径需要改进，即提前输出某一个联通子集的访问序列，这样就能够保证访问完其中联通子图中后再通过割边访问后一个联通子图，最后再沿原路输出一开始到达该点的路径。如果只有割边可以扩展的话，只需要考虑先输出割边的另一部分联通子集访问序列。样例图：

2017-08-31 11:25:35 594

原创最小生成树-Prim算法和Kruskal算法

Prim算法1.概览普里姆算法（Prim算法），图论中的一种算法，可在加权连通图里搜索最小生成树。意即由此算法搜索到的边子集所构成的树中，不但包括了连通图里的所有顶点（英语：Vertex (graph theory)），且其所有边的权值之和亦为最小。该算法于1930年由捷克数学家沃伊捷赫·亚尔尼克（英语：Vojtěch Jarník）发现；并在1957年由美国计算机科学家罗伯特·普

2017-08-31 11:04:30 1808

原创 Warshall传递闭包算法的学习与实现

1、问题引入　　一个有n个顶点的有向图的传递闭包为：有向图中的初始路径可达情况可以参见其邻接矩阵A，邻接矩阵中A[i,j]表示i到j是否直接可达，若直接可达，则A[i,j]记为1，否则记为0；两个有向图中i到j有路径表示从i点开始经过其他点（或者不经过其他点）能够到达j点，如果i到j有路径，则将T[i,j]设置为1，否则设置为0；有向图的传递闭包表示从邻接矩阵A出发，求的所有节点间的路径可达情

2017-08-31 10:24:28 3257 1

原创异常数据剔除

1.在SPSS中做箱型图，图中可以显示异常值，然后剔除。但问题是大数据，采用箱形图已经不显示了2.拉依达准则法（3δ）：简单，无需查表。测量次数较多或要求不高时用。是最常用的异常值判定与剔除准则。但当测量次数《=10次时，该准则失效。如果实验数据值的总体x是服从正态分布的，则式中，μ与σ分别表示正态总体的数学期望和标准差。此时，在实验数据值中出现大于μ＋3σ或小于μ—3σ数据值的概率是

2017-08-30 18:07:03 24953 1

原创加权几何平均数

加权几何平均数的概述　　根据统计资料的不同，几何平均数也有简单几何平均数和加权几何平均数之分。　　加权几何平均数，是统计学中的一种动态平均指标，多是指社会经济现象的同质总体在时间上变动速度的平均数。加权几何平均数是各标志值fi次方的连乘积的次方根。　　当各个变量值的次数(权数)不相同时，应采用加权几何平均数。加权几何平均数的计算公式　　

2017-08-30 11:06:15 4240

原创 java内存区域与内存溢出异常

java虚拟机的基本结构类加载子系统类加载子系统负责从文件系统或者网络中加载Class信息，加载的类信息存放于一块称为方法区的内存空间。除了类的信息外，方法区中可能还会存放运行时常量池信息，包括字符串字面量和数字常量（这部分常量信息是Class文件中常量池部分的内存映射）。程序计数器程序计数器是一块较小的内存空间，可以看作是当前线程所执行的字节码的行号指示器

2017-08-30 01:45:00 302

原创 spark中的RDD持久化

rdd的全称为Resilient Distributed Datasets（弹性分布式数据集）rdd的操作有两种transfrom和action。transfrom并不引发真正的rdd计算，action才会引发真正的rdd计算。rdd的持久化是便于rdd计算的重复使用。官方的api说明如下：persist(storageLevel=StorageLevel(False,

2017-08-30 01:08:04 1678 1

原创服务器架构

作者：牛浩帆链接：https://www.zhihu.com/question/20657269/answer/15763722来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。[只是大框架介绍，实际使用中的不容易注意的细节太多了，需要经验的积累，才能运用娴熟]以下的架构都是在假设已经优化过linux内核的情况下进行初级篇：（单机模式）

2017-08-30 00:10:41 297

原创大型网站服务器架构

1. 初始阶段的网站架构一般来讲，大型网站都是从小型网站发展而来，一开始的架构都比较简单，随着业务复杂和用户量的激增，才开始做很多架构上的改进。当它还是小型网站的时候，没有太多访客，一般来讲只需要一台服务器就够了，这时应用程序、数据库、文件等所有资源都在一台服务器上，网站架构如下图所示：2. 应用服务和数据服务分离随着网站业务的发展和用户量的增加，一台服务器就无法再满足

2017-08-30 00:07:18 481

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些应用中使用，因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee

2017-08-29 00:53:12 356

原创 MapReduce原理

开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技术解决了什么问题时候，我后续的学习就能逐步的加快，而学习hdfs时候我就发现，要理解hadoop框架

2017-08-29 00:37:04 447

原创 HITS算法--从原理到实现

1. 算法来源1999年，Jon Kleinberg 提出了HITS算法。作为几乎是与PageRank同一时期被提出的算法，HITS同样以更精确的搜索为目的，并到今天仍然是一个优秀的算法。HITS算法的全称是Hyperlink-Induced Topic Search。在HITS算法中，每个页面被赋予两个属性：hub属性和authority属性。同时，网页被分为两种：hub页面和autho

2017-08-28 23:45:46 2242

原创群体智能优化算法之粒子群优化算法

阅读目录1. 常见的群体智能优化算法分类2. 粒子群优化算法思想3. 粒子群优化算法的基本框架4. 对粒子群优化算法中惯性权重的认识5. 粒子群优化算法举例——求解旅行商问题6. 参考文献　　同进化算法（见博客《[Evolutionary Algorithm] 进化算法简介》，进化算法是受生物进化机制启发而产生的一系列算法）和人工神经网络算法（Neural Networks，简称N

2017-08-28 21:02:24 21084 1

转载非常好的理解遗传算法的例子

为更好地理解遗传算法的运算过程，下面用手工计算来简单地模拟遗传算法的各个主要执行步骤。例：求下述二元函数的最大值： (1) 个体编码遗传算法的运算对象是表示个体的符号串，所以必须把变量 x1, x2 编码为一种符号串。本题中，用无符号二进制整数来表示。因 x1, x2 为 0 ~

2017-08-28 20:43:28 659

原创序列化和反序列化

摘要　　序列化和反序列化几乎是工程师们每天都要面对的事情，但是要精确掌握这两个概念并不容易：一方面，它们往往作为框架的一部分出现而湮没在框架之中；另一方面，它们会以其他更容易理解的概念出现，例如加密、持久化。然而，序列化和反序列化的选型却是系统设计或重构一个重要的环节，在分布式、大数据量系统设计里面更为显著。恰当的序列化协议不仅可以提高系统的通用性、强健性、安全性、优化系统性能，而且会让系统更

2017-08-26 00:20:54 290

原创 PageRank计算方法及java实现

倒排索引解决的是如何有效的搜索包含某一关键字的网页，PageRank就是如何计算这些网页的价值。PageRank的计算是根据网页的链接计算的。若有1,2,3,4号网页之间的链接关系如下：这里假设每个网页的权重相等，都为1，这个S矩阵是这样得出来的，第1列是1号网页，它指向了2,3,4号网页，它的权重为1，所以2,3,4每个获得的为1/3，这样依次类推。求解G的特征向量可以通过q

2017-08-24 22:20:51 2270 2

原创 hashmap

HashMap也是我们使用非常多的Collection，它是基于哈希表的 Map 接口的实现，以key-value的形式存在。在HashMap中，key-value总是会当做一个整体来处理，系统会根据hash算法来来计算key-value的存储位置，我们总是可以通过key快速地存、取value。下面就来分析HashMap的存取。一、定义 HashMap实现了Map接口，继承Abs

2017-08-24 21:59:19 344

原创 SQL的主键和外键约束详解及用途

SQL的主键和外键的作用：外键取值规则：空值或参照的主键值。(1)插入非空值时，如果主键表中没有这个值，则不能插入。(2)更新时，不能改为主键表中没有的值。(3)删除主键表记录时，你可以在建外键时选定外键记录一起级联删除还是拒绝删除。(4)更新主键记录时，同样有级联更新和拒绝执行的选择。简而言之，SQL的主键和外键就是起约束作用。关系型数据库中的一

2017-08-23 18:43:37 2432

原创 Matlab矩阵基本操作（定义，运算）

一、矩阵的表示在MATLAB中创建矩阵有以下规则：a、矩阵元素必须在”[ ]”内；b、矩阵的同行元素之间用空格（或”,”）隔开；c、矩阵的行与行之间用”;”（或回车符）隔开；d、矩阵的元素可以是数值、变量、表达式或函数；e、矩阵的尺寸不必预先定义。二，矩阵的创建：1、直接输入法最简单的建立矩阵的方法是从键盘直接输入矩阵的元素，输入

2017-08-19 21:41:57 7085

原创 PageRank算法与特征向量和特征值(eigenvector和eigenvalue)

1. PageRank算法概述 PageRank,即网页排名，又称网页级别、Google左侧排名或佩奇排名。是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，自从Google在商业上获得空前的成功后，该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上

2017-08-17 20:46:49 4998 2

原创构建微服务：Spring boot 入门篇

什么是spring bootSpring Boot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。用我的话来理解，就是spring boot其实不是什么新的框架，它默认配置了很多框架的使用方式，就像maven整合了所有的jar包，spring boot整合了所有的框

2017-08-15 00:04:36 323

原创 springMVC学习笔记

一、SpringMVC基础入门，创建一个HelloWorld程序1.首先，导入SpringMVC需要的jar包。2.添加Web.xml配置文件中关于SpringMVC的配置 configure the setting of springmvcDispatcherServlet and configure the mapping--> servlet>

2017-08-14 18:11:57 228

原创 Docker Client创建与命令执行

1. 前言如今，Docker作为业界领先的轻量级虚拟化容器管理引擎，给全球开发者提供了一种新颖、便捷的软件集成测试与部署之道。在团队开发软件时，Docker可以提供可复用的运行环境、灵活的资源配置、便捷的集成测试方法以及一键式的部署方式。可以说，Docker的优势在简化持续集成、运维部署方面体现得淋漓尽致，它完全让开发者从持续集成、运维部署方面中解放出来，把精力真正地倾注在开发上。然而，把

2017-08-13 15:20:13 1705

原创 docker架构

1 背景1.1 Docker简介Docker是Docker公司开源的一个基于轻量级虚拟化技术的容器引擎项目,整个项目基于Go语言开发，并遵从Apache 2.0协议。目前，Docker可以在容器内部快速自动化部署应用，并可以通过内核虚拟化技术（namespaces及cgroups等）来提供容器的资源隔离与安全保障等。由于Docker通过操作系统层的虚拟化实现隔离，所以Docker容器在运行

2017-08-13 14:21:30 982

原创 Java序列化与反序列化

Java序列化与反序列化是什么？为什么需要序列化与反序列化？如何实现Java序列化与反序列化？本文围绕这些问题进行了探讨。 1.Java序列化与反序列化 Java序列化是指把Java对象转换为字节序列的过程；而Java反序列化是指把字节序列恢复为Java对象的过程。 2.为什么需要序列化与反序列化我们知道，当两个进程进行远程通信时，可以相互发送各种类型的数据，包括文本、图片、音频

2017-08-12 23:07:02 246

原创五大常用算法之二：动态规划算法

一、基本概念动态规划过程是：每次决策依赖于当前状态，又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的，所以，这种多阶段最优化决策解决问题的过程就称为动态规划。二、基本思想与策略基本思想与分治法类似，也是将待求解的问题分解为若干个子问题（阶段），按顺序求解子阶段，前一子问题的解，为后一子问题的求解提供了有用的信息。在求解任一子问题时，列出各种可能

2017-08-08 22:47:39 303

原创动态规划之背包问题——Java实现

背包问题具体例子：假设现有容量10kg的背包，另外有3个物品，分别为a1，a2，a3。物品a1重量为3kg，价值为4；物品a2重量为4kg，价值为5；物品a3重量为5kg，价值为6。将哪些物品放入背包可使得背包中的总价值最大？首先想到的，一般是穷举法，一个一个地试，对于数目小的例子适用，如果容量增大，物品增多，这种方法就无用武之地了。　　其次，可以先把价值最大的物体放入，这已经是贪婪算法的

2017-08-08 22:32:15 5995 1

原创 python序列化

在程序运行的过程中，所有的变量都是在内存中，比如，定义一个dict：d = dict(name='Bob', age=20, score=88)可以随时修改变量，比如把name改成'Bill'，但是一旦程序结束，变量所占用的内存就被操作系统全部回收。如果没有把修改后的'Bill'存储到磁盘上，下次重新运行程序，变量又被初始化为'Bob'。我们把变量从内存中变成可存储或传输的过程称之为

2017-08-07 13:27:03 340

原创几种压缩算法原理介绍

1 RLERLE 又叫 Run Length Encoding ，是一个针对无损压缩的非常简单的算法。它用重复字节和重复的次数来简单描述来代替重复的字节。尽管简单并且对于通常的压缩非常低效，但它有的时候却非常有用（例如， JPEG 就使用它）。1.1 原理图 2.1 显示了一个如何使用 RLE 算法来对一个数据流编码的例子，其中出现六次的符号‘ 93 ’已经用 3 个字节来代替：一个标

2017-08-06 01:53:56 5182

原创集束搜索（Beam Search Algorithm ）

看计算机科学中最重要的32个算法，其中有个是集束搜索（又名定向搜索，Beam Search）——最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过，集束搜索只能在每个深度中发现前m个最符合条件的节点，m是固定数字——集束的宽度。泛泛的介绍，不是很能理解清楚，于是有百度又google，写篇东西备忘。先贴维基百科的地址：Beam Search翻译过来就是：Beam Se

2017-08-06 00:46:06 15736 2

翻译 Python Decorators入门（一）

我预计它会成为python最重要的几个特性之一。而问题是我见过的所有介绍decorators的文章都很容易让人感到困惑。所以我打算在这里给以纠正以正视听。(本系列文章将录入开源类书籍Python3之模式和用法) Decorators vs. Decorator模式首先，你得明白使用 “decorator”一词是十分谨慎的决定，因为它可能会让人联想到Design Patterns

2017-08-05 23:48:21 336

原创 MyISAM存储引擎

MyISAM存储引擎每个MyISAM在磁盘上存储成三个文件。第一个文件的名字以表的名字开始，扩展名指出文件类型。.frm文件存储表定义。数据文件的扩展名为.MYD (MYData)。索引文件的扩展名是.MYI (MYIndex)。要明确表示你想要用一个MyISAM表格，请用ENGINE表选项指出来： CREATE TABLE t (i INT) ENGINE = MYISAM;

2017-08-01 00:35:59 507

原创 innodb存储引擎

innodb存储引擎数据库和实例数据库(database):物理操作系统文件或其他形式文件类型的集合实例(instance):mysql数据库由后台线程以及一个共享内存区组成。通常情况下，两者是一对一关系；但是，在集群情况下可能存在一个数据库被多个数据实例使用的情况。 mysql实例在系统上的表现就是一个进程； InnoDB存储架构

2017-08-01 00:21:38 313

DavidChen的博客