自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

转载 经验模态分解法简析(转)

转载自:http://blog.sina.com.cn/s/blog_55954cfb0102e9y2.html美国工程院士黄锷博士于1998年提出的一种信号分析方法:重点是黄博士的具有创新性的经验模态分解(Empirical Mode Decomposition)即EMD法,它是一种自适应的数据处理或挖掘方法,非常适合非线性,非平稳时间序列的处理,本质上是对数据序列或信号的平稳化处理。1

2017-06-19 10:49:38 3523 1

转载 数据挖掘系列(10)——卷积神经网络算法的一个实现

前言  从理解卷积神经到实现它,前后花了一个月时间,现在也还有一些地方没有理解透彻,CNN还是有一定难度的,不是看哪个的博客和一两篇论文就明白了,主要还是靠自己去专研,阅读推荐列表在末尾的参考文献。目前实现的CNN在MINIT数据集上效果还不错,但是还有一些bug,因为最近比较忙,先把之前做的总结一下,以后再继续优化。  卷积神经网络CNN是Deep Learning的一个重要算法

2015-05-22 16:41:55 3190

转载 数据挖掘系列(9)——BP神经网络算法与实践

神经网络曾经很火,有过一段低迷期,现在因为深度学习的原因继续火起来了。神经网络有很多种:前向传输网络、反向传输网络、递归神经网络、卷积神经网络等。本文介绍基本的反向传输神经网络(Backpropagation 简称BP),主要讲述算法的基本流程和自己在训练BP神经网络的一些经验。BP神经网络的结构  神经网络就是模拟人的大脑的神经单元的工作方式,但进行了很大的简化,神经网络由很多神经网

2015-05-22 16:40:05 1101

转载 数据挖掘系列(8)朴素贝叶斯分类算法原理与实践

今天介绍一下朴素贝叶斯分类算法,讲一下基本原理,再以文本分类实践。一个简单的例子  朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:  这个公式虽然看上去简单,但它却能总结历史,预知未来。公式的右边是总结历史,公式的左边是预知未来,如果把Y看出类别,X看出特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,

2015-05-22 16:37:58 874

转载 数据挖掘系列(7)分类算法评价

一、引言  分类算法有很多,不同分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。  正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好。比如某个地区某天地震的

2015-05-22 16:36:54 710

转载 数据挖掘系列(6)决策树分类算法

从这篇开始,我将介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇,欢迎关注和交流。  这篇先介绍分类问题的一些基本知识,然后主要讲述决策树算法的原理、实现,最后利用决策树算法做一个泰坦尼克号船员生存预测应用。一、分类基本介绍  物以类聚,人以群分,分类问题只古以来就出现我们的生活

2015-05-22 16:35:08 3961

转载 数据挖掘系列(5)使用mahout做海量数据关联规则挖掘

上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。

2015-05-22 16:34:25 604

转载 数据挖掘系列(4)使用weka做关联规则挖掘

前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘。weka数据集格式arff  arff标准数据集简介  weka的数据文件后缀为arff(Attribute-Relation File Format,即属性关系

2015-05-22 16:32:47 12624 4

转载 数据挖掘系列(3)--关联规则评价

前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则     看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易数据集共有10,000条记录,其中购买6000条包含游戏光碟,7500条包含影片光碟,4000条既包

2015-05-22 16:31:55 769

转载 数据挖掘系列(2)--关联规则FpGrowth算法

上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。FpGrowth算法通过构造一个树结构来压缩数据记

2015-05-22 16:31:19 572

转载 数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法

关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。 啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤酒与尿布》,虽然说这个故事是哈弗商学院杜撰出来的,但确实能很好的解释关联规则挖掘的原理。我们这里以一个超市购物篮迷你数据集来解释关联规则挖掘的基本概念:TIDItems

2015-05-22 16:29:30 954

转载 GBDT(Gradient Boosting Decision Tree)原理

〇.前序            GBDT是看一个大牛团队做推荐算法比赛的时候拿这个模型来处理最后得到的所有的feature并输出结果的模型,想到自己以前天真地拿着SVD单模型调参参加这类比赛的时候真是……闻者伤心,听着流泪啊,别的不谈,这次讲GBDT主要是因为了解GBDT的一些前置条件我都在博客里写过,可以直接跳到关键部分开写……进入正题吧一.前置条件

2015-05-05 10:38:26 550

转载 决策树--从原理到实现

一.引入决策树基本上是每一本机器学习入门书籍必讲的东西,其决策过程和平时我们的思维很相似,所以非常好理解,同时有一堆信息论的东西在里面,也算是一个入门应用,决策树也有回归和分类,但一般来说我们主要讲的是分类,方便理解嘛。虽然说这是一个很简单的算法,但其实现其实还是有些烦人,因为其feature既有离散的,也有连续的,实现的时候要稍加注意          (不同特征的决策,

2015-05-05 10:37:43 714

转载 C#中获取匹配正则表达式的字符

一、如果字符串中只有一处匹配正则表达式,可用Result来获取匹配字。例如:   string tmpUrl = "http://sports.163.com/nba/";   Regex r = new Regex(@"^http://(?[^/]+)/", RegexOptions.Compiled);   realUrl = "http://" + r.Match(tmpUr

2015-04-18 21:40:30 2020

原创 常用的正则表达式

1.匹配特定数字:^[1-9]d*$ //匹配正整数^-[1-9]d*$ //匹配负整数^-?[1-9]d*$ //匹配整数^[1-9]d*|0$ //匹配非负整数(正整数 + 0)^-[1-9]d*|0$ //匹配非正整数(负整数 + 0)^[1-9]d*.d*|0.d*[1-9]d*$ //匹配正浮点数^-([1-9]d*.d*|0.d*[1-9]d*)

2015-04-18 21:33:39 357

转载 用C#开发的双色球走势图

双色球开奖数据个人也是从某网站抓取的,不保存到数据库,根据这些原始数据去分析双色球的走势,如有基本走势图、红球三分区走势图、红球四分区走势图、红球七分区走势图、红球连号走势图、和值走势图、篮球综合走势图和历史同期等等组成。         首先介绍双色球原始数据是如何获取的?这个对于各位来说都比较简单,就是获取HTML源码,根据HTML去提取相关信息。   

2015-04-18 19:17:19 2709

转载 C#中正则表达式的使用

目前为止,许多编程语言和工具都包含对正则表达式的支持,C#也不例外,C#基础类库中包含有一个命名空间(System.Text.RegularExpressions)和一系列可以充分发挥规则表达式威力的类(Regex、Match、Group等)。那么,什么是正则表达式,怎么定义正则表达式呢? 一、正则表达式基础l          什么是正则表达式   在编写字符串的

2015-04-18 17:39:46 376

转载 数据挖掘、C#与Matlab混合编程链接

http://www.cnblogs.com/asxinyu/p/4288836.html

2015-04-12 20:21:46 518

转载 【彩票】彩票预测算法(一):离散型马尔可夫链模型C#实现

前言:彩票是一个坑,千万不要往里面跳。任何预测彩票的方法都不可能100%,都只能说比你盲目去买要多那么一些机会而已。  已经3个月没写博客了,因为业余时间一直在研究彩票,发现还是有很多乐趣,偶尔买买,娱乐一下。本文的目的是向大家分享一个经典的数学预测算法的思路以及代码。对于这个马尔可夫链模型,我本人以前也只是听说过,研究不深,如有错误,还请赐教,互相学习。1.马尔可夫链预测模型介绍

2015-04-12 20:08:32 2517 1

转载 特征选择算法-Relief

【转载】数据挖掘之—基于ReliefF和K-means算法的医学应用实例(转自: http://www.cnblogs.com/asxinyu/archive/2013/08/29/3289682.html)  数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的

2015-04-10 14:45:35 7281

转载 C#操作Excel总结

0. 导入命名空间: ?1234using Microsoft.Office.Core;using Microsoft.Office.Interop.Excel;using System.IO;using System.Reflection; 1. 如何打开已有excel文档

2014-10-30 12:25:54 316

转载 C#获取网页内容的三种方式

搜索网络,发现C#通常有三种方法获取网页内容,使用WebClient、WebBrowser或者HttpWebRequest/HttpWebResponse。。。方法一:使用WebClient (引用自:http://fbljava.blog.163.com/blog/static/265211742008712105145244/)static void Main(string[] a

2014-10-29 19:59:39 542

转载 C#中网页文件下载——HttpWebRequest与HttpWebResponse的使用方法

这个类是专门为HTTP的GET和POST请求写的,解决了编码,证书,自动带Cookie等问题。C# HttpHelper,帮助类,真正的Httprequest请求时无视编码,无视证书,无视Cookie,网页抓取1.第一招,根据URL地址获取网页信息   先来看一下代码get方法 public static string GetUrltoHtml(string Url

2014-10-29 12:12:29 4091

转载 DevExpress控件的GridControl控件小结

大多是网上零散找到的,小部分是自己使用的时候自己遇到的。 XtraGrid的关键类就是:GridControl和GridView。GridControl本身不显示数据,数据都是显示在GridView/CardView/XXXXView中。GridControl是各种View的容器。所以要控制显示,要从GridView这些类入手。 1.DevExpress控件组中的GridContr

2014-09-22 19:50:57 485

转载 有return的情况下try catch finally的执行顺序

在try中没有异常的情况下try、catch、finally的执行顺序 try --- finally如果try中有异常,执行顺序是try --- catch --- finally如果try中没有异常并且try中有return这时候正常执行顺序是try ---- finally --- return如果try中有异常并且try中有return这时候正常执行顺序是try----ca

2014-09-22 10:13:05 319

转载 程序员必知的10大基础实用算法

算法一:快速排序算法  快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2) 次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。  快速排序使用分治法(Div

2014-08-22 10:22:39 337

转载 开源矩阵Eigen的下载、VS配置与使用

1、  下载EigenEigen的官网下载地址:http://eigen.tuxfamily.org/index.php?title=Main_Page#Download下载后的文件名为:eigen-eigen-5097c01bcdc4.tar.bz2,为方便使用将其名字修改为eigen3,另外在CSDN资源里也可以下载,其地址为:http://download.csdn.

2014-08-22 10:04:14 3957

转载 模板的编辑模式

1.函数模版的编译模式分两种:完全包含编译模式和局部编译模式(需要用export关键字)2.不同的编译器对这两种编译模式的支持各不相同,但一般都支持完全包含编译模式,具体支持情况需要参照具体使用的编译器文档模版函数和普通函数在使用的时候有一定的区别:(1)普通函数在使用的源文件中直接include该函数的声明即可(2)模版函数在使用的源文件中既要include模版函数的声明,也

2014-08-22 10:02:54 362

转载 Eigen与Malab函数对照

注:本文非笔者原创,原文转载自:http://jacoxu.com/?p=118

2014-08-22 09:54:12 504

转载 libsvm的使用

libsvm的使用1: 了解libsvm工具包LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等2001年开发设计的一个简单, 易于使用和快速有效的SVM模式识别与回归的软件包, 他不但提供了编译好的可在Windows系列系统的执行文件, 还提供了源代码, 方便改进, 修改以及在其它操作系统上应用; 该软件对SVM所涉及的参数调节相对比较少, 提供了很多的默认参数,

2014-07-16 15:46:05 778

转载 LibSVM 3.12的源码分析Svm-train.c

LibSVM 3.12的源码分析Svm-train.c发表于 2012 年 8 月 7 日共涉及3个文件: Svm-train.c, Svm.cpp, Svm.h. 建议使用Source Insight软件对这3个文件建立工程. 方便代码阅读. 下面从Svm-train.c文件中的main()函数切入.int main(int argc, <span

2014-07-16 14:59:08 1032

转载 libsvm 使用介绍

(一)初识LibSVM LibSVM是台湾 林智仁(Chih-Jen Lin) 教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。           这套库可以从http://www.csie.ntu.edu.tw/~cj

2014-07-16 11:53:53 781

转载 OpenCV的SVM用法

注:本文非笔者原创,原文转载自:在OpenCV当中,SVM是作为一个类来定义接口的,其定义略显复杂。不过,如果你对libSVM比较了解,就会发现,OpenCV的SVM接口与libSVM的接口非常接近。下面,我还利用前面介绍libSVM用法时的数据,通过一个简单的例子程序来介绍OpenCV的SVM模块函数的用法。// OpencvSVM.cpp : Defines t

2014-07-16 11:32:23 654

转载 libSVM应用举例

前面提到,很多人看到libSVM这么多的参数,估计要犯晕了。没关系,我之前把相关的libSVM参数已经讲解了一遍,这里,再给出libSVM的用法。如果你不想花时间去仔细研究libSVM,完全可以参照我的函数来直接调用libSVM完成你的工作。      首先是训练SVM得到模型;假设,有10个训练样本,每个训练样本,有12个特征值,即:每个训练样本的维数是12,也就是说,训练样本构成了一个

2014-07-16 11:27:33 411

转载 开源SVM库libSVM介绍

libSVM是台湾大学林智仁教授等研究人员开发的一个用于支持向量机分类,回归分析及分布估计的c/c++开源库。另外,它也可以用于解决多类分类问题。 libSVM最新的版本是2011年4月发布的3.1版。林智仁教授设计开发该SVM库的目的是为了让其它非专业人士可以更加方便快捷的使用SVM这个统计学习工具。libSVM提供了一些简单易用的接口,从而使得用户可以方便的使用,而不必关心其内部复杂的数学模型

2014-07-16 11:20:29 709

转载 支持向量机简介

http://blog.csdn.net/carson2005/article/details/6453502支持向量机SVM是从线性可分情况下的最优分类面提出的。所谓最优分类,就是要求分类线不但能够将两类无错误的分开,而且两类之间的分类间隔最大,前者是保证经验风险最小(为0),而通过后面的讨论我们看到,使分类间隔最大实际上就是使得推广性中的置信范围最小。推广到高维空间,最优分类线就成

2014-07-16 11:15:30 496

转载 机器学习基本概念

顾名思义,机器学习的目的就是让机器具有类似于人类的学习、认识、理解事物的能力。试想一下,如果计算机能够对大量的癌症治疗记录进行归纳和总结,并能够给医生提出适当的建议和意见,那对病人的康复来说,是多么的重要。除了医疗领域,金融股票、设备维护、自动驾驶、航空航天等领域也对机器学习表现出了越来越多的关注。一个典型的机器学习系统可以用下面的图来表示:    其中,系统S是我

2014-07-16 11:13:37 606

转载 svm入门

注:本文非笔者原创,原文转载自:http://blog.csdn.net/carson2005/article/details/8710985(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。

2014-07-16 11:07:14 413

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除