漫路拾光-CSDN博客

原创 Teap树堆

Treaphttp://hihocoder.com/problemset/problem/1325 树堆，是二叉搜索树和堆的结合，是为了平衡二叉搜索树，使得平均复杂度为O(logn)。通过随机数来用堆的性质调整树结构。

2016-06-28 20:24:33 650

原创 Manacher解决最长回文子串

Manacher 方法解决最长回文子串

2016-06-04 21:47:02 414

原创 Ubuntu 14.02 jekyll 搭建

Ruby 安装安装ruby，ubuntu14.02没有预装ruby，可以通过apt-get安装，但是通过apt-get安装的版本是ruby1.8或者ruby1.9，貌似安装jekyll需要2.0版本以上才行，因此这里用包来安装下载 ruby 安装包，http://rubyinstaller.org/downloads/ 这里我选择的是2.3.0，可以直接下载包下来，或者命令行用wget来下

2016-03-10 20:05:00 798

官网https://github.com/dmlc/xgboost/blob/master/doc/build.mdMG64安装参考http://ascend4.org/Setting_up_a_MinGW-w64_build_environment#MinGW-w64下载http://sourceforge.net/projects/tdm-gcc/files/TDM-GCC%20Installe

2016-02-22 18:08:35 2167

原创数据挖掘之关联分析七（非频繁模式）

非频繁模式非频繁模式，是一个项集或规则，其支持度小于阈值minsup. 绝大部分的频繁模式不是令人感兴趣的，但其中有些分析是有用的，特别是涉及到数据中的负相关时，如一起购买DVD的顾客多半不会购买VCR，反之亦然，这种负相关模式有助于识别竞争项(competing item)，即可以相互替代的项。某些非频繁模式也可能暗示数据中出现了某些罕见事件或例外情况。如，如果{火灾=yes}是频繁的，但是{火

2015-08-21 13:46:34 1644

原创数据挖掘之关联分析六（子图模式）

子图模式频繁子图挖掘（frequent subgraph mining）：在图的集合中发现一组公共子结构。图和子图图是一种用来表示实体集之间联系的数据结构。子图，图G′=(V′,E′)G' = (V', E')是另一个图G=(V,E)G = (V, E)的子图，如果它的顶点集V’是V的子集，并且它的边集E’是E的子集，子图关系记做G′⊆sGG' \subseteq s G。支持度，给定图的集族ς

2015-08-20 16:19:09 4014

原创数据挖掘之关联分析五（序列模式）

购物篮数据常常包含关于商品何时被顾客购买的时间信息，可以使用这种信息，将顾客在一段时间内的购物拼接成事务序列，这些事务通常基于时间或空间的先后次序。问题描述一般地，序列是元素（element）的有序列表。可以记做s=(e1,e2,⋯,en)s = (e_1, e_2, \cdots, e_n)，其中每个eje_j是多个事件的集簇，即ej=i1,i2,⋯,ike_j = {i_1, i_2, \c

2015-08-19 19:28:42 7213 4

原创数据挖掘之关联分析三（规则的产生）

规则产生忽略那些前件和后件为空的规则，每个频繁k项集能够产生2(2k−1)2(2^k-1)个关联规则。将频繁项集Y划分为两个非空子集X和Y-X，使得X→Y−XX \to Y-X能满足置信度阈值，就可以得到满足条件的规则。在计算规则的置信度时并不需要再次扫描事务数据集，因为产生规则的频繁项集和它们的子集也都是频繁项集，我们在提取频繁项集时，已经计算过它们的支持度计数，因而不需要再扫描所有的数据集。

2015-08-18 22:14:46 2541

原创数据挖掘之关联分析二（频繁项集的产生）

频繁项集的产生格结构（lattice structure）常常用来表示所有可能的项集。发现频繁项集的一个原始方法是确定格结构中每个候选项集的支持度。但是工作量比较大。另外有几种方法可以降低产生频繁项集的计算复杂度。 1. 减少候选项集的数目。如先验(apriori)原理，是一种不用计算支持度而删除某些候选项集的方法。 2. 减少比较次数。利用更高级得到数据结构或者存储候选项集或者压缩数据

2015-08-18 21:58:52 11700

原创数据挖掘之关联分析一（基本概念）

许多商业企业运营中的大量数据，通常称为购物篮事务（market basket transaction）。表中每一行对应一个事务，包含一个唯一标识TID。利用关联分析的方法可以发现联系如关联规则或频繁项集。关联分析需要处理的关键问题： 1. 从大型事务数据集中发现模式可能在计算上要付出很高的代价。 2. 所发现的某些模式可能是假的，因为它们可能是偶然发生的。二元表示没按过对应一个事

2015-08-18 21:01:51 5311

原创数据挖掘之关联分析四（连续属性处理）

处理连续属性挖掘连续属性可能揭示数据的内在联系，包含连续属性的关联规则通常称作量化关联规则（quantitative association rule）。主要讨论三种对连续数据进行关联分析的方法 1. 基于离散化的方法 2. 基于统计学的方法 3. 非离散化方法基于离散化方法离散化是处理连续属性最常用的方法，这种方法将连续属性的邻近值分组，形成有限个区间，例如，年龄属性可以形成如下区间

2015-08-18 20:34:28 3907

原创 Python学习系列（2）之词汇与语法约定

Python学习系列（2）之词汇与语法约定

2015-08-17 21:15:53 543

原创 Python初探

运行pythonPython程序是有解析器来执行的，解析器启动后将会出现一个命令提示，在此可以开始程序输入，进入简单的读入-求值循环。In [1]: print "Hellow World"Hellow WorldPython的交互式模式是最有用的功能之一，以交互方式使用时，特殊变量_用于保存最后一次运行的结果，此变量只在交互模式下才有定义In [2]: 1+2Out[2]: 3In [3]:

2015-08-16 21:07:27 634

原创 Foxmail登陆gmail设置

foxmail设置gmail登陆

2015-06-16 10:44:36 5444

原创 C快速排序

C自带有快排函数qsort可以实现常类型和结构元素的排序函数原型为 void qsort(void*, size_t, size_t, int(__cdecl*)(const void*, const void*));1.排序数组首地址2.排序数组个数3.元素大小4.排序比较函数实现常类型int排序结构数组排序浙大07年机试题#i

2014-09-02 17:09:50 950