Machine Learning & Data Mining
banlucainiao
立身以力学为先,力学以读书为本。 —郑耕老《劝学》
展开
-
数据挖掘数据集资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp转载 2016-05-29 23:42:44 · 767 阅读 · 0 评论 -
机器学习中的特征——特征选择的方法以及注意点
关于机器学习中的特征我有话要说 在这次校园招聘的过程中,我学到了很多的东西,也纠正了我之前的算法至上的思想,尤其是面试百度的过程中,让我渐渐意识到机器学习不是唯有算法,机器学习是一个过程,这样的过程包括数据处理+模型训练,而数据处理又包括了特征提取,特征表示。模型训练中有训练的策略,训练的模型,算法相关等等的一套流程,一个好的预测模型与特征提取,特征表示的方法息息相关,而算法这是作用于特转载 2017-08-14 11:09:42 · 896 阅读 · 0 评论 -
统计相关系数(1)——Pearson(皮尔逊)相关系数及MATLAB实现
统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数。 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:(1)、当相关系数为0时,X和Y两变量无关系。(2)、当X的值增大(减小),Y值增大(减小),两个转载 2017-01-13 11:48:17 · 1611 阅读 · 0 评论 -
统计相关系数(2)——Spearman Rank(斯皮尔曼等级)相关系数及MATLAB实现
Spearman Rank(斯皮尔曼等级)相关系数 1、简介在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数转载 2017-01-13 11:49:35 · 1286 阅读 · 0 评论 -
统计相关系数(3)——Kendall Rank(肯德尔等级)相关系数及MATLAB实现
Kendall Rank(肯德尔等级)相关系数1、简介在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致转载 2017-01-13 11:51:32 · 3772 阅读 · 0 评论 -
[python] 时间序列分析之ARIMA
1 时间序列与时间序列分析在生产和科学研究中,对某一个或者一组变量 x(t) 进行观察测量,将在一系列时刻 t1,t2,⋯,tn 所得到的离散数字组成的序列集合,称之为时间序列。 时间序列分析是根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。时间序列分析常用于国民宏观经济控制、市场潜力预测、气象预测、农作物害虫灾害预报等各个方面。2 时间序转载 2017-09-15 10:45:32 · 2899 阅读 · 0 评论 -
信息论:熵与互信息
这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),互信息(mutual information),交叉熵(cross entropy),困惑度(perplexity)。熵/信息熵在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息转载 2017-09-28 20:48:38 · 1536 阅读 · 0 评论 -
SVM输出概率值的计算过程
老师要求svm输出概率值,然后发现libsvm已经自带了这个函数,网络上没有看到有说明,于是看了看相关文献自己写了一个。首先附参考文献:1.Probabilistic Outputsfor Support Vector Machines and Comparisons to Regularized Likelihood Methods2.A Note on Platt’s Probab转载 2017-09-30 10:05:01 · 3254 阅读 · 1 评论 -
张志华教授《机器学习导论》和《统计机器学习》课程讲义
张志华教授《机器学习导论》和《统计机器学习》课程讲义 【尊重原创,转载请注明出处】http://blog.csdn.net/guyuealian/article/details/53672487 最近看了上海交大张志华教授的精品课程 《机器学习导论》和《统计机器学习》,觉得讲的很深入,适合学习机器学习和深度学习的研究者深入学习,张教授讲的比较偏向理论,需要一定的数学基础。转载 2017-11-12 21:17:12 · 1248 阅读 · 2 评论 -
浅析机器学习中的模型选择与调参(cross validation + grid search)
对于一个预测问题,同时有多种可用的模型,每种模型有多种可用的参数。如何选择一个最合适的模型?总题过程分为2个部分: 1.对于一个模型,如何评估该模型在特定问题上的好坏? 2.选择了最好的模型后,如何选择最优的参数?对于模型的评估,我们一般使用交叉验证(cross validation)来进行评估转载 2017-11-19 15:38:28 · 712 阅读 · 0 评论 -
GitHub十大机器学习项目
GitHub十大机器学习项目在Github上排名前10位的机器学习项目包括许多库,框架和教育资源。看看别人都在用的工具,和学习的资源。作者Matthew Mayo, KDnuggets.开源工具在数据科学工作流程中越来越重要.最近KDnuggets软件民意调查结果显示,73%的数据科学家使用前12个月免费的数据科学工具.这是容易理解的,因为Python和转载 2017-11-22 10:54:56 · 1387 阅读 · 0 评论 -
机器学习︱非平衡数据处理方式与评估
解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。 解决方式分为: .一、相关方法总结1、采样采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会对最终的结果带来提升。采样分为上采样(Ov转载 2017-11-22 11:50:35 · 539 阅读 · 0 评论 -
R语言 | 关联规则
1.概念1.1 引论关联规则(AssociationRules)是无监督的机器学习方法,用于知识发现,而非预测。关联规则的学习器(learner)无需事先对训练数据进行打标签,因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估,一般都可以通过肉眼观测结果是否合理。 关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然其他转载 2017-12-06 10:49:10 · 1096 阅读 · 0 评论 -
scikit-learn的基本用法——模型保存与加载
本文主要介绍scikit-learn中的模型的保存与加载。Demo 1import picklefrom sklearn.svm import SVCfrom sklearn import datasets# 定义分类器svm = SVC()# 加载iris数据集iris = datasets.load_iris()# 读取特征X = iris.data# 读取分转载 2017-12-23 11:22:56 · 1103 阅读 · 0 评论 -
【译文】特征选择方法导论(如何选取合适的变量)
【译文】特征选择方法导论(如何选取合适的变量)作者 SAURAV KAUSHIK译者 钱亦欣引言我时常以参加竞赛的方式来磨练自己的机器学习技能,它能让你更清楚地了解自己的水平。一开始,我以为算法就是机器学习的一切,知道采用哪种模型就能走上人生巅峰。但后来我发觉自己拿衣服了,竞赛的赢家们使用的算法和其他人并无二致。而后,我认为这些人一定有很牛逼的机器,但当我发现有的t转载 2018-01-26 16:40:27 · 880 阅读 · 0 评论 -
机器学习大神迈克尔 · 乔丹:我讨厌将机器学习称为AI
上月,由 Michael I.Jordan 、Jeff Dean、李飞飞、LeCun 等多位人工智能领域的大牛发起的系统机器学习会议 SysML 在斯坦福开幕。会上,机器学习宗师级大牛 Michael I.Jordan 就《系统与机器学习的前景与挑战》进行了主旨演讲。因为和 NBA 球星迈克尔·乔丹名字相近,他有着一个有趣的称号:“The Michael Jordan of Machine Lea...转载 2018-03-22 08:55:57 · 530 阅读 · 0 评论 -
scikit-learn中PCA的使用方法
scikit-learn中PCA的使用方法@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章 主成分分析(PCA) 中,我基于Python和numpy实现了PCA算法,主要是为了加深对算法的理解,算法的实现很粗糙,实际应用中我们一般调用成熟的包,本文就转载 2017-08-13 21:54:37 · 434 阅读 · 0 评论 -
机器学习降维方法概括
最近刷题看到特征降维相关试题,发现自己了解的真是太少啦,只知道最简单的降维方法,这里列出了常见的降维方法,有些算法并没有详细推导。特征降维方法包括:Lasso,PCA,小波分析,LDA,奇异值分解SVD,拉普拉斯特征映射,SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap。1. LASSO通过参数缩减达到降维的目的。LASSO(Least absolute shr转载 2017-08-16 09:48:47 · 381 阅读 · 0 评论 -
在分类中如何处理训练集中不平衡问题
[置顶] 在分类中如何处理训练集中不平衡问题标签: 分类数据不平衡类别不均衡imbalance机器学习2015-10-25 23:09 3169人阅读 评论(1) 收藏 举报 分类: 数据挖掘与机器学习(23) 目录(?)[+]原文地址:一只鸟的天空,http://blog.csdn.net/heyongluo转载 2016-04-21 16:47:15 · 3135 阅读 · 0 评论 -
Kmeans、Kmeans++和KNN算法比较
K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程可以用下图表示: 如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样转载 2016-06-18 12:08:13 · 455 阅读 · 0 评论 -
相关系数种类
相关系数种类 (一) Pearson积差相关(K. Pearson product-moment correlation ;r)1. X变数:等距、比率变量(连续变量)2. Y变数:等距、比率变量(连续变量)3. 公式:4. 特性:数值稳定、标准误小。5. 例:工作时数与收入的关系。(二) Spearman等级相关(Spear转载 2017-01-13 10:11:24 · 639 阅读 · 0 评论 -
Spearman秩相关系数和Pearson皮尔森相关系数
1、Pearson皮尔森相关系数皮尔森相关系数也叫皮尔森积差相关系数,用来反映两个变量之间相似程度的统计量。或者说用来表示两个向量的相似度。皮尔森相关系数计算公式如下: 分子是协方差,分母两个向量的标准差的乘积。显然是要求两个向量的标准差不为零。当两个向量的线性关系增强时,相关系数趋于1(正相关)或者-1(负相关)。当两个变量独立时,相关系数为0。反之,不转载 2017-01-13 11:42:12 · 1108 阅读 · 0 评论 -
R语言不平衡数据分类指南
作者 MANISH SARASWAT译者 钱亦欣引言目前我们发展出了不少机器学习算法来对数据建模,基于数据进行一些预测已经不再是难事。不论我们建立的是回归或是分类模型,只要我们选择了合适的算法,总能得到比较精确的结果。然而,世事并不总是一帆风顺,某些分类问题可能比较棘手。在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精转载 2017-03-02 15:16:48 · 4046 阅读 · 0 评论 -
R语言处理缺失数据的高级方法
R语言处理缺失数据的高级方法标签: R2014-07-02 21:14 5436人阅读 评论(0) 收藏 举报 分类:R(63) 目录(?)[+]主要用到VIM和mice包[plain] view plain copy install.packages(c("VIM"转载 2016-09-30 17:07:46 · 1076 阅读 · 0 评论 -
auc指标含义的理解
机器学习实践中分类器常用的评价指标就是auc,不想搞懂,简单用的话,记住一句话就行auc取值范围[0.5,1],越大表示越好,小于0.5的把结果取反就行。想搞懂的,看An introduction to ROC analysis (Tom Fawcett)这篇论文把。我把这篇论文的要点整理了一下。引子假设有下面两个分类器,哪个好?转载 2017-02-23 15:55:01 · 4269 阅读 · 0 评论 -
关于聚类的一些经验及其在R中的实现
1 首先针对数据进行分析,回答下面的问题:1)想用聚类方法解决什么问题。是想看数据的结构,还是想把数据分为很多类,还是有其他的目的。2)数据本身的分布。针对样本聚类还是针对变量聚类?样本可能符合怎样的分布?变量又会符合怎样的分布?2 选择合适的聚类方法针对聚类目的和数据的分布,选择合适的方法。一般来说,层次聚类比较适合用来分析数据的结构,因此可以用来做初步的聚类,从转载 2017-04-10 16:30:44 · 4360 阅读 · 0 评论 -
R语言中的机器学习
Machine Learning & Statistical Learning (机器学习 & 统计学习) 网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Hothorn 版本:2008-02-18 18:19:21 翻译:R-fox, 2008-03-18 机器学习是计算机科学转载 2017-04-10 16:37:16 · 806 阅读 · 0 评论 -
例说Hausdorff距离
给定欧氏空间中的两点集 , ,Hausdorff距离就是用来衡量这两个点集间的距离。 其中, , 。 称为双向Hausdorff距离, 称为从点集A到点集B的单向Hausdorff距离。相应地 称为从点集B到点集A的单向Hausdorff距离。 下面从一个例子来理解Hausdorff距离。 上图中,给出了A,B,C,D四条路径,其中路径转载 2017-03-15 16:12:21 · 2374 阅读 · 0 评论 -
【机器学习】局部加权线性回归
一、问题引入 我们现实生活中的很多数据不一定都能用线性模型描述。依然是房价问题,很明显直线非但不能很好的拟合所有数据点,而且误差非常大,但是一条类似二次函数的曲线却能拟合地很好。为了解决非线性模型建立线性模型的问题,我们预测一个点的值时,选择与这个点相近的点而不是所有的点做线性回归。基于这个思想,便产生了局部加权线性回归算法。在这个算法中,其他离一个点越近,权重越大,对回归系数的贡献就越转载 2017-06-18 21:10:02 · 966 阅读 · 0 评论 -
scikit-learn学习之SVM算法
机器学习中的算法(2)-支持向量机(SVM)基础关于SVM一篇比较全介绍的博文程序员训练机器学习 SVM算法分享一:我对SVM的理解先介绍一些简单的基本概念分隔超平面:将数据集分割开来的直线叫做分隔超平面。超平面:如果数据集是N维的,那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面,也就是分类的决策边界。间隔:一个点到分割面的距离,称为点相对转载 2017-06-18 17:09:27 · 736 阅读 · 0 评论 -
Kaggle 机器学习竞赛冠军及优胜者的源代码汇总
http://dataunion.org/14892.htmlKaggle比赛源代码和讨论的收集整理。Algorithmic Trading Challenge40Solution whitepaper41.Solution thread30.Allstate Purchase Prediction Challenge7Ran转载 2017-06-25 11:47:45 · 458 阅读 · 0 评论 -
大量机器学习(Machine Learning)&深度学习(Deep Learning)资料
机器学习目前比较热,网上也散落着很多相关的公开课和学习资源,这里基于课程图谱的机器学习公开课标签做一个汇总整理,便于大家参考对比。1、Coursera上斯坦福大学Andrew Ng教授的“机器学习公开课”:机器学习入门课程首选,斯坦福大学教授,Coursera联合创始人Andrew Ng老师的课程,课程图谱上多达400多人关注,20余条课程评论,绝大多数同学认为这门课程比较适合入门转载 2017-06-25 11:58:25 · 1718 阅读 · 0 评论 -
scikit-learn主要模块和基本使用方法
从网上看到一篇总结的很不错的sklearn使用文档,备份勿忘。引言对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。加载数据(Data Loading)我们假设输入时一个特征矩转载 2017-07-16 17:27:16 · 405 阅读 · 0 评论