机器学习
文章平均质量分 59
LegenDavid
这个作者很懒,什么都没留下…
展开
-
BP算法浅谈(Error Back-propagation)
最近在打基础,大致都和向量有关,从比较基础的人工智能常用算法开始,以下是对BP算法研究的一个小节。 本文只是自我思路的整理,其中举了个例子,已经对一些难懂的地方做了解释,有兴趣恰好学到人工智能对这块不能深入理解的,可以参考本文。 因为大部分涉及公式,我就直接贴图了,请谅解,如果需要全文可以联系@梁斌penny 谢谢。转载 2016-01-06 15:53:41 · 626 阅读 · 0 评论 -
标签传播算法(Label Propagation)及Python实现
标签传播算法(Label Propagation)及Python实现zouxy09@qq.comhttp://blog.csdn.net/zouxy09 众所周知,机器学习可以大体分为三大类:监督学习、非监督学习和半监督学习。监督学习可以认为是我们有非常多的labeled标注数据来train一个模型,期待这个模型能学习到数据的分布,以期对未来没有见到的转载 2016-03-31 11:32:12 · 1779 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http://bubblexc.com/y2011/148/)。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。# ROC曲线需要提前说明的是,我们这里只转载 2016-04-11 16:31:04 · 393 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
作者:Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常转载 2016-06-07 14:43:58 · 1234 阅读 · 0 评论 -
如何使用R语言的Boruta包进行特征选择
作者 Debrati引言变量选择是模型构建的一个重要方面,每个分析人员都必须学习。毕竟,它有助于排除相关变量、偏见和不必要噪音的限制来建立预测模型。许多分析新手认为,保持所有(或更多)的变量就能产生最佳的模型,因为你不会丢失任何信息。可悲的是,他们错了!从模型中删除一个变量,增加了模型的精度,这种事情你遇到过多少次?至少,我已经碰到过很多次。这样的变量往往被转载 2016-06-13 11:33:25 · 6416 阅读 · 0 评论 -
Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子
1、问题描述做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语,在opinion mining里面属于很重要的task,很多DM、NLP相关的paper在做这方面的工作。基本的思路是:(1)从sentence的parse tree(比如stanford parser)中选取候选target结点和候选opinion结点,然后对转载 2016-07-01 17:39:10 · 1230 阅读 · 0 评论 -
从最大似然到EM算法浅解
从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什转载 2016-07-05 10:27:50 · 610 阅读 · 0 评论 -
随机森林和GBDT的几个核心问题
GBDT和随机森林的相同点:1、都是由多棵树组成2、最终的结果都是由多棵树一起决定GBDT和随机森林的不同点:1、组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成2、组成随机森林的树可以并行生成;而GBDT只能是串行生成3、对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者转载 2016-07-11 10:02:35 · 9885 阅读 · 0 评论 -
协方差的意义和计算公式
协方差的意义和计算公式学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,1转载 2016-07-25 17:41:14 · 529 阅读 · 0 评论 -
基于深度学习的智能问答
基于深度学习的智能问答kevinliali 2016-08-03 11:07:15 浏览2965 评论2 发表于: 阿里人工智能&大数据深度学习 人工智能 自动问答 deepQA摘要: 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史。但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应。自转载 2016-09-19 11:00:29 · 18737 阅读 · 2 评论 -
深入FFM原理与实践
http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlFM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和F转载 2017-03-21 15:54:58 · 626 阅读 · 0 评论 -
Factorization Machines 学习笔记(四)学习算法
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分转载 2017-03-21 15:25:38 · 485 阅读 · 0 评论 -
Factorization Machines 学习笔记(三)回归和分类
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分转载 2017-03-21 14:59:42 · 320 阅读 · 0 评论 -
Factorization Machines 学习笔记(二)模型方程
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分转载 2017-03-21 14:53:09 · 335 阅读 · 0 评论 -
Factorization Machines 学习笔记(一)预测任务
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘法(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和转载 2017-03-21 11:40:15 · 395 阅读 · 0 评论 -
在线最优化求解(Online Optimization)之一:预备篇
by @fengyoung2014-12-08动机与目的在实际工作中,无论是工程师、项目经理、产品同学都会经常讨论一类话题:“从线上对比的效果来看,某某特征或因素对xx产品的最终效果有很大的影响”。这类话题本质上说的是通过已有的数据反映出某些特定的因素对结果有很强的正(或负)相关性。而如何定量计算这种相关性?如何得到一套模型参数能够使得效果达到最优?这就是最优化计算要做的事转载 2017-03-08 17:32:16 · 4575 阅读 · 1 评论 -
机器学习(1)之梯度下降(gradient descent)
题记:最近零碎的时间都在学习Andrew Ng的machine learning,因此就有了这些笔记。 梯度下降是线性回归的一种(Linear Regression),首先给出一个关于房屋的经典例子,面积(feet2)房间个数价格(1000$)2104340016003330转载 2017-03-08 17:19:20 · 1206 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
原帖发表在我的博客:http://alexkong.net/2013/06/introduction-to-auc-and-roc/ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http://bubblexc.com/y2011/148/)。这篇博文转载 2017-04-05 15:52:50 · 867 阅读 · 0 评论 -
详解并行逻辑回归
逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中,由于受到单机处理能力和效率的限制,在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进转载 2017-04-06 18:47:01 · 951 阅读 · 0 评论 -
专治选择困难症——bandit算法
选择是一个技术活著名鸡汤学家沃.滋基硕德曾说过:选择比努力重要。我们会遇到很多选择的场景。上哪个大学,学什么专业,去哪家公司,中午吃什么,等等。这些事情,都让选择困难症的我们头很大。那么,有办法能够应对这些问题吗?答案是:有!而且是科学的办法,而不是“走近科学”的办法。那就是bandit算法!bandit算法来源于人民群众喜闻乐见的赌博学,它要解决的问题是这样的[1转载 2017-05-02 15:45:05 · 4725 阅读 · 0 评论 -
UCB算法升职记——LinUCB算法
UCB再回顾上回书说到,UCB这个小伙子在做EE(Exploit-Explore)的时候表现不错,只可惜啊,是一个不关心组织的上下文无关(context free)bandit算法,它只管埋头干活,根本不观察一下面对的都是些什么样的arm。进一步送UCB去深造之前,我们再把UCB算法要解决的问题描述一下:面对固定的K个item(广告或推荐物品),我们没有任何先验知识,每一个转载 2017-05-02 15:47:51 · 16464 阅读 · 1 评论 -
PCA的数学原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成转载 2017-04-20 17:25:40 · 377 阅读 · 0 评论 -
文本主题模型之潜在语义索引(LSI)
在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点 在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型也是非监督的算法,目的是得到文本按照主题的概率分布。从这个方面来说,主题模型和普转载 2017-05-27 18:00:48 · 1152 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有preci转载 2017-05-18 10:58:48 · 322 阅读 · 0 评论 -
ImageNet 2012 中文标签(Chinese Labels)
部分为机器翻译,可能存在个别不准确的翻译[python] view plain copyn01440764,丁鲷 n01443537,金鱼 n01484850,大白鲨 n01491361,虎鲨 n01494475,锤头鲨 n01496331,电鳐 n01498041,黄貂鱼 n01514668,公转载 2017-06-16 16:38:34 · 10914 阅读 · 0 评论 -
如何用TensorFlow和TF-Slim实现图像分类与分割
原文: Image Classification and Segmentation with Tensorflow and TF-Slim 作者: Daniil Pakhomov 译者: KK4SBB 审校:王艺 欢迎技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net本文将介绍如何用近日发布的TF-Slim工具包和预训练的模型来完成图像分类和图像分割。转载 2017-06-06 18:34:36 · 562 阅读 · 0 评论 -
spark参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuffle.memoryFraction转载 2017-07-12 12:41:02 · 415 阅读 · 0 评论 -
在centos6环境下安装TensorFlow
The official-released binary packages of TensorFlow are built for newer version of Linux distros. Here is how to build TensorFlow binary package for CentOS 6.Install DependenciesAdmin pr转载 2017-06-12 16:18:09 · 797 阅读 · 0 评论 -
SVM 准备工作(SVM vs LR)
一、SVM vs LR综述两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge loss。这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大转载 2017-07-17 18:36:30 · 406 阅读 · 0 评论 -
交叉验证(Cross Validation)方法思想简介
交叉验证(CrossValidation)方法思想以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以转载 2017-07-17 17:59:23 · 300 阅读 · 0 评论 -
SVM 核函数的选择
1、经常使用的核函数核函数的定义并不困难,根据泛函的有关理论,只要一种函数K(xi,xj)满足Mercer条件,它就对应某一变换空间的内积.对于判断哪些函数是核函数到目前为止也取得了重要的突破,得到Mercer定理和以下常用的核函数类型:(1)线性核函数K(x,xi)=x⋅xi(2)多项式核K(x,xi)=((x⋅xi)+1)d(3)径向基核(RBF转载 2017-07-17 18:38:18 · 878 阅读 · 0 评论 -
数据挖掘算法之离散化和二元化
离散化和二元化有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化,binarization)。此外,如果一个分类属性具有大量不同值(类别),或者某些值出现不频繁,则对于某些数据挖掘任务,通过合并某些值减转载 2017-08-01 15:00:01 · 668 阅读 · 0 评论 -
多高的AUC才算高?
问题的引出 AUC这个指标有两种解释方法,一种是传统的“曲线下面积”解释,另一种是关于排序能力的解释。例如0.7的AUC,其含义可以大概理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分高于对负样本的打分。可以看出在这个解释下,我们关心的只有正负样本之间的分数高低,而具体的分值则无关紧要。 我们在各种分享中常常会看到,某大牛的某模型转载 2017-08-02 19:10:58 · 3960 阅读 · 0 评论 -
LIBSVM与LIBLINEAR
LIBSVM与LIBLINEAR对于多分类问题以及核函数的选取,以下经验规则可以借鉴: 如果如果特征数远远大于样本数的情况下,使用线性核就可以了.如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIBLINEAR较好,而且使用-s 2选项转载 2017-07-27 11:54:25 · 834 阅读 · 0 评论 -
机器学习算法比较
机器学习算法比较Posted on 2016-02-26 | In ML | | views : 18253本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始转载 2017-08-29 15:05:51 · 409 阅读 · 0 评论 -
当训练数据集很小的时候怎么办?
What to do with “small” data?By Ahmed El DeebMany technology companies now have teams of smart data-scientists, versed in big-data infrastructure tools an原创 2017-09-27 18:00:48 · 4811 阅读 · 0 评论 -
XGBoost参数调优完全指南(附Python代码)
原文地址:Complete Guide to Parameter Tuning in XGBoost by Aarshay Jain 原文翻译与校对:@MOLLY && 寒小阳 (hanxiaoyang.ml@gmail.com) 时间:2016年9月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/52665396转载 2017-09-28 18:52:39 · 379 阅读 · 0 评论 -
GBDT:梯度提升决策树
综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类转载 2017-09-29 17:18:47 · 301 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。转载 2017-09-29 17:18:21 · 305 阅读 · 0 评论 -
一步一步解决一个机器学习问题
原创 2017-08-25 17:09:42 · 376 阅读 · 0 评论