机器学习
铭霏
这个作者很懒,什么都没留下…
展开
-
PrefixSpan序列模式挖掘算法
介绍与GSP一样,PrefixSpan算法也是序列模式分析算法的一种,不过与前者不同的是PrefixSpan算法不产生任何的侯选集,在这点上可以说已经比GSP好很多了。PrefixSpan算法可以挖掘出满足阈值的所有序列模式,可以说是非常经典的算法。序列的格式就是上文中提到过的类似于这种的。算法原理PrefixSpan算法的原理是采用后缀序列转前缀序列的方式来构造频繁序列的。举转载 2016-06-26 18:44:48 · 1622 阅读 · 0 评论 -
集成学习理论(sklearn)
1 集成学习是什么? 我们还是花一点时间来说明一下集成学习是什么,如果对此有一定基础的同学可以跳过本节。简单来说,集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到其利断金的目的。 目前,有三种常见的集成学习框架:bagging,boosting和stacking。国内,南京大学的周志华教授对集成学习有很深入的研究,其在09年发表的一篇概述性论文《Ensemble L转载 2016-08-24 14:04:08 · 960 阅读 · 0 评论 -
集成学习实践(sklearn)
1 Random Forest和Gradient Tree Boosting参数详解 在sklearn.ensemble库中,我们可以找到Random Forest分类和回归的实现:RandomForestClassifier和RandomForestRegression,Gradient Tree Boosting分类和回归的实现:GradientBoostingClassifier和Gr转载 2016-08-24 14:29:58 · 1086 阅读 · 0 评论 -
相似度/距离公式汇总
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离原创 2016-01-11 11:16:12 · 3562 阅读 · 0 评论 -
XGBoost-Python完全调参指南-参数解释篇
原文地址:http://blog.csdn.net/wzmsltw/article/details/50994481在analytics vidhya上看到一篇,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide转载 2016-09-27 23:00:40 · 997 阅读 · 0 评论 -
对线性回归,logistic回归和一般回归的认识
1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一个基本问题,然后引出了线性回归的解决方法,然后针对误差问题做了概率解释。之后介绍了logist转载 2016-10-25 11:23:38 · 4252 阅读 · 0 评论 -
CTR预估中GBDT与LR融合方案
1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容转载 2016-10-31 22:58:13 · 691 阅读 · 0 评论 -
常见的七种回归技术
介绍 根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。内容1.什么是回归分析?2.我们为什么要使用回归分析?3.回归有哪些类型 ?4.线性回归5.逻辑回归6.多项式回归7.逐步回归8.转载 2016-10-31 23:16:17 · 5932 阅读 · 0 评论 -
softmax回归
在网上看到一篇讲softmax很好的文章记录一下,softmax是sigmoid的拓展版,主要解决多分类问题在上一篇文章中,讲述了广义线性模型。通过详细的讲解,针对某类指数分布族建立对应的广义线性模型。在本篇文章中,将继续来探讨广义线性模型的一个重要例子,它可以看成是Logistic回归的扩展,即softmax回归。 我们知道Logistic回归只能进行转载 2016-11-12 15:15:18 · 473 阅读 · 0 评论 -
Random Forest(sklearn参数详解)
本篇不是介绍RF的,关于RF网上有很多通俗易懂的解释西瓜书与统计学习方法等很多教材中的解释也都足够本篇仅针对如何使用sklearn中的RandomForestClassifier作记录一、代码怎么写class sklearn.ensemble.RandomForestClassifier(n_estimators=10, crite-rion=’gini’, max_dep原创 2016-08-17 10:32:42 · 75820 阅读 · 5 评论 -
谷歌机器学习43条规则:机器学习工程的最佳实践经验
机器学习目前已经有非常多的应用,它相比于传统的软件工程,最大的特点即我们编写的是学习过程,因此系统能根据数据改善性能。正因为这种特性,从嵌入循环神经网络的输入法到嵌入卷积神经网络的摄像头,机器学习应用已经无处不在。但在真正做产品时,我们需要的不是机器学习专家或顶尖的深度学习技术,而是大量的模型压缩调优、部署测试和模型交互等。因此,在实践中成为一名出色的工程师极为重要。这篇文章选自谷歌开发者中文博客...转载 2018-07-05 23:08:44 · 370 阅读 · 0 评论 -
部分监督学习
部分监督学习(Partially Supervised Learning):(1)已标注和无标注数据中进行学习(Learning from Labeled and Unlabeled Examples) 【LU学习(LU Learning)】 【每个类别的数据包含少量的已标注数据和大量的无标注数据】(2)正例和无标注数据中学习(Learning from Positive and Unlab...转载 2018-09-26 14:17:40 · 988 阅读 · 0 评论 -
数据挖掘初探(skleran)
1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。 我们使用sklearn进行虚线框内的工作(sklearn也可以进行文本特征提取)。通过分析sklearn源码,我们可以看到除训练,预测和评估以外,处理其他工作的类都实现了3个方法:fit、transform和fit_transform。从命名中转载 2016-08-24 13:25:51 · 1803 阅读 · 0 评论 -
PCA(sklearn参数详解)
本篇不介绍PCA ,关于PCA收藏过另外几篇写的很好的博文本篇仅针对sklearn中的PCA作记录一、代码怎么写sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) 二、关于参数n_components: 意义:PCA算法中所要保原创 2016-08-23 21:47:46 · 30306 阅读 · 5 评论 -
局部加权回归
通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting),比如数据集是一个钟形的曲线。而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的过拟合(overfitting),不符合数据真实的模型。 今天来讲一种非参数学习方法,叫做局部加权回归(LWR)。为什么局部加权回归叫做非参数学习方法呢? 首原创 2016-01-16 21:45:22 · 696 阅读 · 0 评论 -
召回率Recall、精确度Precision、准确率Accuracy、F值
假设原始样本中有两类,其中: 1:总共有 P个类别为1的样本,假设类别1为正例。 2:总共有N个类别为0 的样本,假设类别0为负例。 经过分类后:3:有 TP个类别为1 的样本被系统正确判定为类别1,FN 个类别为1 的样本被系统误判定为类别 0,显然有P=TP+FN; 4:有 FP 个类别为0 的样本被系统误判断定为类别1,TN 个类别为0 的样本被系统正确判为类别 0,原创 2016-02-26 13:44:33 · 10820 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precisi原创 2016-04-08 20:02:26 · 5154 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇GBDT介绍非常好的文章,GBDT大概是非常好用又非常好用的算法之一了吧(哈哈 两个好的意思不一样) GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。转载 2016-05-27 12:53:19 · 1612 阅读 · 0 评论 -
LSA
引子Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:稀疏性(Sparseness): 对原创 2016-04-09 11:26:38 · 886 阅读 · 0 评论 -
岭回归(Ridge Regression)
数值计算方法的“稳定性”是指在计算过程中舍入误差是可以控制的。对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说,如果主元(即对角线上的元素)上的元素很小,在计算时就会表现出病态的特征。回归分析中常用的最小二乘法是一种无偏估计。对于一个适定问题,X通常是列原创 2016-01-16 22:10:04 · 3946 阅读 · 0 评论 -
Apriori算法总结
Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。Apriori(先验的,推测的原创 2016-06-11 15:13:42 · 17488 阅读 · 2 评论 -
主成分分析PCA详解(一)
降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降维的目的:1.减转载 2016-06-20 17:55:13 · 9352 阅读 · 1 评论 -
深入FFM原理与实践
FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。前言在计算广告领域,点击率CTR(转载 2016-05-05 13:34:02 · 17018 阅读 · 0 评论 -
机器学习中的范数规则化之L0、L1与L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 监督机器学习问题无非就是“minimizeyour error while转载 2016-08-19 14:04:17 · 601 阅读 · 0 评论 -
xgboost原理及应用
本文转载自:http://blog.csdn.net/a819825294/article/details/512064101.背景关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。2.xgboost VS gbdt说到xgboost,不得不说gbdt。转载 2016-09-13 09:38:59 · 1853 阅读 · 0 评论 -
主动学习——active learning
本文转载自:https://www.cnblogs.com/hust-yingjie/p/8522165.html阅读目录写在前面什么是active learning?active learning的基本思想active learning与半监督学习的不同参考文献1. 写在前面 在机器学习(Machine learning)领域,监督学习(Supervised learning...转载 2018-10-16 10:14:06 · 897 阅读 · 0 评论