daisy9212-CSDN博客

原创小记

经历了一些事情，最后选择还是沉淀一段时间。阅读、思考、Coding，成为日常。Anyway, never have been and never will be.

2016-06-07 18:11:54 783

原创流形学习应用与展望

一流形学习典型应用 1 可视化人不能直观感知高维度的数据集的内部结构，但对三维以下的数据集的内在规律有着很强的感知能力。流形学习可以将高维数据的内在关系在低于三维的空间中展示出来，使得人们能够直观地认识高维数据的内在规律，并了解影响数据集内在结构的主要因素的变化规律。 2 推理与半监督学习由于流形表达了一个事物在不同状态下的共通状态，而沿流形的运动则表达事物状态的变化，那么

2016-04-22 18:31:46 4708

转载机器学习之模型评估与模型选择

一模型评估对于这两种误差，测试误差能够反映学习方法对未知的测试数据集的预测能力，是学习中的重要概念，通常将学习方法对未知数据的预测能力称为泛化能力（generalization ability）。二泛化能力和过拟合问题过拟合是指学习时选择的模型所包含的参数过多，以至于出现一模型对已知参数预测得很好，但对未知参数预测得很差的现象。以一维的回归分析为例，如果用高阶多项式去拟合数

2015-11-06 19:58:13 1889

数据的统计分析分为描述性统计分析和统计推断两部分, 前者又称为探索性统计分析, 它是通过绘制统计图形、编制统计表格、计算统计量等方法来探索数据的主要分布特征, 揭示其中存在的规律. 探索性数据分析是进行后期统计推断的基础. 本文着重于数据集的数字化探索。程序包DAAG中有内嵌数据集“possum”，它包括了从维多利亚南部到皇后区的七个地区的104只负鼠(possum)的年龄、尾巴的长度、总长度等1

2015-11-01 19:38:54 3305

原创机器学习之回归分析——Logistic regression

傍晚把李航老师的《统计学习方法》拿出来重新翻阅了一遍，觉得之前看的太不仔细了，现在慢慢整理，从算法原理到实现过程。今天主要看了Logistic regression,之后补上代码和求解目标函数常用的梯度下降法、拟牛顿法。

2015-10-31 23:04:26 663

原创基于R统计分析——样本与分布

1 数据抽样（1）简单随机抽样sample(x,size,replace=FALSE,prob=NULL)其中，x表示待抽取对象，一般情况下以向量形式表示；size为非负整数，表示想要抽取样本的个数；replace表示是否为可放回抽样，默认不放回；prob用于设置各个抽样样本的抽样概率，默认等概率抽样。例子：library(MASS)data(Insurance)sub1=sample(n

2015-10-30 23:33:36 2467

原创半监督学习研究

昨天阅读了半监督学习的一些综述，整理如下：在机器学习的实际应用中，如网页分类、文本分类、基因序列对比、蛋白质功能预测、语音识别、自然语言处理、计算机视觉和基因生物学，很容易找到海量的无类标签的样例，但需要使用特殊设备或经过昂贵且用时非常长的实验过程中进行人工标记才能得到有类标签的样本，由此产生了极少量的有类标签的样本和过剩的无类标签的样例。因此，人们尝试将大量的无类标签的样例加入到有限的有类标签

2015-10-30 13:03:06 7124 1

原创高斯混合模型（matlab代码+注释）

这里我学习的是Statistical Patte7rn Recognition Toolbox中的emgmm代码，代码中的主要知识点在之前的GMM文档中基本解释清楚，包括EM算法中的两个步骤。我自己先看原理，再去看代码，在给代码注释的过程中我又重新把整个理论体系梳理了一遍，还是很感谢这种方式，踏踏实实地做一件事情。

2015-10-28 15:02:26 22816 1

原创 EM算法（算法原理+算法收敛性）

接着高斯模型之后把EM算法的理论部分梳理了一遍，自己也学到很多知识，继续努力。

2015-10-27 23:08:18 5066 1

原创高斯混合模型（理论部分）

以前用过好几次GMM，做识别，做背景建模，今天因为开始改进一个算法，认真把GMM整理一遍。文章中例子引用 http://blog.csdn.net/zouxy09/article/details/8537620

2015-10-27 19:31:49 1051

原创基于R做聚类分析

一数据预处理二 K-Medoids聚类三 EM聚类

2015-10-24 08:53:04 5708

翻译译文《What everybody ought to know about a Data Scientist 》

原文地址：http://bigdata-madesimple.com/what-everybody-ought-to-know-about-data-scientist/ 原文很好理解，我备注了中文翻译在下面，如果翻译不妥之处，望指正。A few years ago, The Harvard Business Review hailed the role of data scientist “Th

2015-10-22 09:06:18 1259

转载 EMD和BEMD算法实现（matlab代码）

今天结合自己在网上找的一些实现代码，稍微修改进行测试，没有进行更多的实验，可能在一些问题的处理上还是比较毛糙的。 EMDfunction imf=emd(x)x=transpose(x(:));imf=[];%%主函数while ~ismonotonic(x) %%残余量是单调函数 x1=x; sd=inf; %均值 while(sd>0.1)||~isimf(x1)

2015-10-21 19:53:48 18242 7

转载机器学习研究及最新进展

今天把一些有关机器学习的小点梳理了一下，目录如下：机器学习的学习方式机器学习面临的挑战机器学习最新发展（还在整理会议论文中……后续补充）转载处：（1）http://blog.jobbole.com/77620/ （2）谭营教授《机器学习研究及最新进展》一机器学习的学习方式根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习领域，可以根据输

2015-10-20 21:13:22 1448

原创信号时频域分析 ——EMD/BEMD/LMD 算法原理

今天将EMD/BEMD/LMD三种算法原理看了一下，代码还没有完全弄好，争取两天内弄完。

2015-10-18 21:14:35 14974 10

原创图像二维离散小波变换

这两天接触图像多尺度分解的一些内容，主要重点在EMD(empirical mode decomposition)——BEMD(bidimensional empirical mode decomposition),LMD(local mean decomposition)——BLMD(bidimensional local mean decomposition,BLMD)。之前一直没有接触过这个

2015-10-16 21:45:07 31160 2

原创目标检测——CodeBook 算法测试代码

利用CodeBook算法实现目标检测。测试代码：// picturepreprocess.cpp : 定义控制台应用程序的入口点。//#include "stdafx.h"#include <fstream>#include <opencv2/highgui/highgui.hpp>#include <opencv2/imgproc/imgproc.hpp>#include <open

2015-10-09 14:23:59 2417 1

原创目标检测——CodeBook背景建模（原理+Opencv实现代码）

CodeBook算法的基本思想是为每一个像素点建立一个codebook，每个codebook包含一个或者多个boxes，并且随着背景像素值波动情况的不同，不同像素点所包含的boxes数目不一定相同。 CodeBook算法为当前图像的每一个像素建立一个码本CodeBook(CB)结构,每个CodeBook由多个码元CodeWord(CW)组成。CB和CW的形式如下： CB={CW1,CW2,…CW

2015-10-08 23:28:19 4851

原创谱聚类（NJW算法 Matlab代码）

今天看了谱聚类算法综述（主要最近看的论文好像中心都偏在聚类分割这里），具体看了一种算法，实现起来也很简单，有点晚了，省去原理部分（明天补上），贴Matlab代码。%%%补上一点综述（每次都要转成PDF、、、） NJW算法function U=NJW(data,k)%%NJW算法选取拉氏矩阵的前K个最大特征值对应的特征向量，使其在R（k）空间中构成与原数据一一对应的表述，并在该空间内进行聚类

2015-10-04 22:43:31 14034 1

原创模糊C均值聚类算法（原理+Matlab代码）

FCM代码function[center,U,obj_fun]=FCMCluster(data,n,options)%采用模糊C均值将数据集data分为n类%用法% 1 [center,U,obj_fcn]=FCMCluster(data,n,options);% 2 [center,U,obj_fcn]=FCMCluster(data,n);%输入 % data n*m矩阵，n个样

2015-10-02 21:38:52 53271 7

原创数据预处理（方法介绍）

常见的数据预处理方法有：数据清洗、数据集成、数据变换和数据归约。1. 数据清洗：数据清洗的目的不只是要消除错误、冗余和数据噪音，还要能将按不同的、不兼容的规则所得的各种数据集一致起来。2. 数据集成：将多个数据源中的数据合并，并存放到一个一致的数据存储（如数据仓库）中。这些数据源可能包括多个数据库、数据立方体或一般文件。3. 数据变换：找到数据的特征表示，

2015-09-25 07:58:45 2773

原创 Latex安装与公式编辑小结

这两天开始用Latex，遇到了很多问题。这里做一个总结，在后续的使用中可继续补充。一安装 1.出于自动化学报的要求，版本选择CTex v2.4.6ftp://ftp.ctex.org/pub/tex/systems/ctex/obsolete/2.4/CTeX-2.4.6-Basic.exeCTex v2.4.6Full包含完整版MiKTeX。ftp://ftp.ctex.o

2015-09-22 00:47:05 1590 1

转载数据可视化工具

这里给出可视化工具汇总，链接：http://selection.datavisualization.ch/，里面罗列了各种可视化工具，包括数据的地图呈现工具、数据图表展示工具和数据分析工具。以R作为分析工具，R画地图一般是两种方法：利用GIS数据绘制；根据软件包提供的地图直接调用，比如谷歌地图（我这里是打不开的，连接不上服务器）下面提供基于R绘制中国地图，原作博客链接：http://my.osc

2015-09-11 22:56:44 1330 1

原创聚类有效性——最佳聚类数

聚类有效性的评价标准有两种：一是外部标准，通过测量聚类结果和参考标准的一致性来评价聚类结果的优良；另一种是内部指标，用于评价同一聚类算法在不同聚类数条件下聚类结果的优良程度，通常用来确定数据集的最佳聚类数。一最佳聚类数判定的方法对于内部指标，通常分为三种类型：基于数据集模糊划分的指标；基于数据集样本几何结构的指标；基于数据集统计信息的指标。基于数据集样本几何结构的指标根据数据集本身和聚类结

2015-09-09 21:39:27 37987 2

原创聚类算法分析——Kmeans算法

Kmeans算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后通过计算各个簇中数据点的平均值，更新簇中心，迭代至满足收敛条件。 Kmeans的目标函数：（这里以欧式距离作为衡量近邻标准进行分析）其中，N是数据数目，C是划分簇的数目，rc 是一个0 1变量，当数据点xn被归类到c簇时为1，否则为0。 Kmeans 算法就是最小化这个目标函数，可采取迭代的方法：

2015-09-07 22:00:44 1564

原创目标检测——背景更新法

在运动目标检测中，为了完善当前构建的背景模型，更好的策略就是更新背景模型。如果model是当前背景模型，cur是当前帧，则新的模型为： modelnew = (1-a)*model+a*cur （a为学习率），随着时间的推移，之前的建模图片权重越来越小。Opencv中提供了cvRunningAvg函数，其中调用了accumulateWeighted函数（源代码可参考accum.cpp)。做了一

2015-09-06 08:35:02 2591

原创基于R做相关分析

R 中，cor.test ()提供了三种检验方法：Pearson相关性检验（R默认）；Spearman秩检验；Kendall检验。调用格式为：cor.test ( x, y, alternative=c("two.side" , "less" , " greater"), method=c("Pearson" , " Kendall" ,"

2015-09-04 22:32:13 2619

原创相关分析与回归分析（一）

相关分析和回归分析都是研究变量间相互关系，测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法。1、涵义（1）相关分析是对具有相关关系的变量之间的关系密切程度进行分析研究的统计方法；（2）回归分析是对具有相关关系的变量，根据其形式，选择一个适当的数学模型，近似地表示变量之间的关系的统计分析方法。2、联系通过相关分析判断变量之间是否具有相

2015-09-04 22:01:22 2321

原创检测出运动目标后提取边界两个函数 cvFindContours和cvBoundingRect

1 cvFindContours( void* img, CvMemStorage* storage, CvSeq** firstContour, int cntHeaderSize,

2015-09-03 16:53:30 2330

转载午间阅读

1 个性化推荐的十大挑战http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=209167484&idx=1&sn=700d61576151ac39ed8473b3e8c14476&scene=0#rd2 看完了上一篇文章，查了关于协同过滤算法的描述，包括基于用户和基于物品的协同过滤。http://www.cnblog

2015-09-02 14:11:10 550

daisy9212的博客