数据挖掘
文章平均质量分 81
artzers
这个作者很懒,什么都没留下…
展开
-
【数据挖掘】利用md5查找重复文件
【数据挖掘】利用md5查找重复文件 电脑经过长时间的使用,难免会存留许多重复文件。这些重复文件往往四散在各处,其文件名、修改时间等信息都有改动,这对我清理重复文件造成了困扰。尽管重复文件已经有了诸多修改,但是这些修改仅仅作用于文件头,真正的文件数据没有修改过,因此我可以通过比较磁盘上的文件的文件数据的md5摘要信息,来找到重复的文件。原创 2016-05-26 14:08:50 · 7515 阅读 · 0 评论 -
【机器学习】tensorflow: 稀疏自编码
21世纪之后,数学家证明了我们获取的很多数据,可以分解为空间中少数几个基的组合,且组合系数很多为0;亦或者说,大部分数据的主要内容可以由少数几个空间基组成。这就是数据的稀疏特征,是压缩感知的基础。基于这个原理诞生了数据压缩方法,检测方法。这些方法很多都基于最优化理论,在大数据处理上,相比传统的方法,比如PCA,在计算复杂度上有很大的提升。稀疏自编码是其中一种数据压缩方法。 稀疏编码的公式为:arg原创 2017-02-14 11:01:24 · 3550 阅读 · 0 评论 -
【机器学习】Tensorflow:tSNE数据非线性降维
深度学习巨头之一的Hinton大神在数据降维领域有一篇经典论文Visualizing Data using t-SNE。该方法是流形(非线性)数据降维的经典,从发表至今鲜有新的降维方法能全面超越。该方法缺点是计算复杂度大,一般推荐先线性降维然后再用tSNE降维。python sklearn有相应的实现。我现在用Tensorflow实现这个算法。原创 2017-03-01 00:57:37 · 16792 阅读 · 2 评论 -
【机器学习】tensorflow: GPU求解带核函数的SVM二分类支持向量机
SVM本身是一个最优化问题,因此理所当然可以用简单的最优化方法来求解,比如SGD。2007年pegasos就发表了一篇文章讲述简单的求解SVM最优化的问题。其求解形式简单,但是并没有解决核函数计算量巨大的问题。这里给出了一个tensorflow的带核函数的SVM的解法,使用GPU加速,并且支持在线学习。原创 2017-02-16 10:11:50 · 10604 阅读 · 11 评论 -
【机器学习】SVM核函数的计算
SVM复杂核函数,实际工程上不能拆分为向量內积,于是不能求解w的确切值,需要从核函数SVM的定义上求解SVM.原创 2016-12-09 01:54:10 · 3824 阅读 · 0 评论 -
【机器学习】关联规则与FP-Tree
FP-Tree算法 FP-Tree算法只需要遍历一次事务,然后可以建立FP-Tree树形数据结构来表征事务项目出现的关系。FP-Tree相比原始事务,将各个事务压缩到一个树,保存了项目之间的关系和出现频数,但是规模小得多。我可以直接根据FP-Tree来获取所有事务项目集合出现的次数。原创 2016-09-20 11:00:35 · 1974 阅读 · 0 评论 -
【机器学习】关联规则与Apriori算法
日常事务中,我们留意到事务中有些项目往往同时发生,于是开始挖掘这些项目之间的关联。要确定哪些事务项目有关联,我们需要给出合理的关联规则和算法。原创 2016-09-19 21:04:16 · 1136 阅读 · 0 评论 -
VNC和CUDA安装冲突
我平时使用vnc来管理远程工作站和HPC。 最近我要安装CUDA7.5,安装之后,电脑黑屏了!于是我重启,还好电脑正常,但是CUDA就只安装了一半,既用不了也不能卸载,卸载会出错。于是我用控制面板的卸载程序功能强行删除了CUDA,然后升级NVIDIA驱动。 安装驱动之后,进入系统,系统分辨率只有640*480……,然后我换了旧版本的驱动安装,安装程序提示无法找到兼容的显卡。我去计算机管理-设备管原创 2016-07-22 20:56:34 · 1485 阅读 · 0 评论 -
【图像处理】HDF5 C++编程简介
HDF5是一种科学数据格式,其特点是可以将不同类型的数据集整合保存到一个文件,并分别打上标签、注释。相比旧版的HDF格式,HDF5能支持大于4GB的文件读写;HDF5在数据集的基础上增加包Group,类似文件夹。这使得HDF5文件内部像普通的文件系统一样,便于数据的整合管理。原创 2017-12-27 20:48:42 · 7637 阅读 · 0 评论