自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 社区发现评估指标-NMI

1、介绍 NMI(Normalized Mutual Information)常用在聚类中,度量两个聚类结果的相近程度。是社区发现(community detection)的重要衡量指标,基本可以比较客观地评价出一个社区划分与标准划分之间相比的准确度。NMI的值域是0到1,越高代表划分得越准。2、python代码# coding=utf-8import numpy as npimport ma

2017-06-27 23:46:15 12902 1

原创 HDFS中读写文件流程

1、HDFS中读取文件流程2、HDFS中写入文件流程

2017-06-24 18:16:04 322

原创 HDFS:基本概念

1、简介 HDFS(Hadoop Distributed File System )是Hadoop分布式文件系统。HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。2、基本概念 块-block:HDFS的文件被分成多个块进行存储,HDFS块的默认大小是64MB,块是文件存储管理的逻辑单元。每一个block会在多个datanode上存储多份

2017-06-23 00:26:40 936

原创 复杂网络的统计特征

不同于规则网络和随机网络,复杂网络具有小世界效应和无标度特性。小世界效应:大的簇系数和小的平均距离。 无标度特性:节点度服从幂律分布—具有某个特定度的节点数目与这个特定度之间的关系可用一个幂函数近似表示。 统计特征:(1) 簇系数:用来衡量网络节点聚类的情况,对于某个节点,它的簇系数被定义为它所有相邻节点之间连边的数目占可能的最大连边数目(k(k-1)/2,k为节点数)的比例,网络的簇系数C则是

2017-06-22 21:57:36 13429

原创 《Deep Forest: Towards an Alternative to Deep Neural Networks》理解

当前的深度模型全部都是神经网络。这篇论文展示了如何构建深度森林(deep forest),为在许多任务中使用深度神经网络之外的方法打开了一扇门。

2017-06-13 23:46:43 5109

原创 最小生成树-Prim算法

1、算法概述 图论中的一种算法,可在加权连通图里搜索最小生成树。由此算法搜索到的边子集所构成的树中,不但包括了连通图里的所有顶点,且其所有边的权值之和最小。2、算法流程 (1).输入:一个加权连通图,其中顶点集合为V,边集合为E;(2).初始化:Vnew = {x},其中x为集合V中的任一节点(起始点),Enew = {},为空;(3).重复下列操作,直到Vnew = V结束. a.在集合E中

2017-06-08 00:25:26 480

原创 图的实现(python)

比如有这么一张图:(1)可以用字典和列表来表示graph = {'V0':['V1','V5'], 'V1':['V2'], 'V2':['V3'], 'V3':['V4','V5'], 'V4':['V0'], 'V5':['V2','V4']}找到一条路径:def find_path(graph, sta

2017-06-07 00:04:28 1006

原创 最小生成树-Kruskal算法

1、kruskal算法(克鲁斯卡尔)思想该算法是基于贪心的思想得到的,假设有n个顶点的连通网G = {V,E} 中,最初每个顶点都是孤立点,没有边的非连通图G’= {V, E},图中每个顶点自成一个连通分量。把每条边按照权值从小到大排列,按照顺序选取每条边,若该边的两个顶点落在不同的连通分量上,则将此边加入到G’中;否则将此边舍去,重新选择下一条边。如此重复下去,直到所有顶点在同一个连通分量上为止。

2017-06-06 22:16:57 463 1

原创 图的表示

一个图(graph)G=(V,E)是由顶点集V和边集E组成。每一条边就是一个顶点对(v,w),其中v,w∈V。如果点对是有序的,那么图就是有向图。 图中的一条路径path是一个顶点序列w1,w2,w3,…,wk,使得(wi,wi+1)∈E,1<=i<=k。路径的长是该路径上的边数。1、二维数组表示用邻接矩阵表示,空间需求为Θ(V²):若图很稠密(边很多),则邻接矩阵是合适的表示方法。如果很稀疏,更

2017-06-06 21:06:49 302

原创 图论基本概念3

1、定义 二叉树是计算机中一种重要的数据结构,二叉树是一个连通的无环图,二叉树是每个结点最多有两个子树的树结构。通常子树被称作“左子树”和“右子树”,左子树和右子树同时也是二叉树。二叉树的子树有左右之分,并且次序不能任意颠倒。2、相关术语 树的结点:包含一个数据元素及若干指向子树的分支; 结点层:根结点的层定义为1;根的孩子为第二层结点,依此类推; 树的深度:树中最大的结点层 结点的度:结

2017-06-06 15:13:31 489

原创 图论基本概念2

1、欧拉图 图G的一个回路,若通过G的每条边一次,则称为欧拉回路,具有这种回路的图叫做欧拉图。2、哈密尔顿图 图G的一个回路,若通过G的每个顶点一次,则称为哈密尔顿回路,具有这种回路的图叫做哈密尔顿图。3、团(clique) 对于给定图G=(V,E)。其中,V={1,…,n}是图G的顶点集,E是图G的边集。图G的团就是一个两两之间有边的顶点集合。简单地说,团是G的一个完全无向图的子图,该子图中

2017-06-06 00:17:28 723

原创 图论基本概念1

图论〔Graph Theory〕是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。① 顶点:表示事物或对象。 ② 边:事物与事物之间的关系。 ③ 度:顶点拥有边的个数。 出度:以之为起点的边的条数。 入度:以之为终点的边的条数。 ④ 同构:不改

2017-06-05 23:48:47 399

原创 python中的高级数据结构

在Python中有四种内建的数据结构,分别是List、Tuple、Dictionary以及Set。大部分的应用程序不需要其他类型的数据结构,但若是真需要也有很多高级数据结构可供选择,例如Collection、Array、Heapq、Bisect、Weakref、Copy以及Pprint。参考:http://blog.jobbole.com/65218/#article-comment

2017-06-02 23:13:39 405

原创 机器学习算法—K-近邻(二)

KNN算法的思路在上一篇文章中已经提到,现在我们来看一下如何用python实现。1、需要导入的包import csvimport randomimport mathimport operatorfrom sklearn import neighbors2、加载数据集,并把它分为两部分:trainingSet与testSetdef loadDataset(filename,split,trai

2017-06-01 16:03:01 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除