
机器学习/数据挖掘
文章平均质量分 86
寒小阳
对机器学习/数据挖掘/算法感兴趣,并从事相关工作。『我们是一群热爱机器学习,喜欢交流分享的小伙伴,希望通过“ML学分计划”交流机器学习相关的知识,认识更多的朋友。Q_Q群号 : 2000人群169492443(已满), 2000人群564538990(已满), 2000人群285273721,从业和研究人员请加群472059892,欢迎加入获取资料,分享和讨论相关知识』
展开
-
从FM推演各深度学习CTR预估模型(附代码)
作者: 龙心尘 && 寒小阳 时间:2018年7月。 出处:https://blog.csdn.net/longxinchen_ml/article/details/81031736 http://blog.csdn.net/han_xiaoyang/article/details/? 声明:版权所有,转载请联系作者并注明出处。本文代码部分参考了lambda等同学的tens...原创 2018-07-13 15:13:47 · 17526 阅读 · 12 评论 -
全球名校课程作业分享系列(1)--斯坦福计算机视觉与深度学习CS231n之KNN
课程作业原地址:CS231n Assignment 1 作业及整理:@郭承坤 && @Molly && @寒小阳 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/79138352任务背景 用K最近邻的方法去完成图像识别的任务代码环境 python3.6.1(anaconda4.原创 2018-01-23 12:49:17 · 15324 阅读 · 3 评论 -
全球名校课程作业分享系列(2)--斯坦福计算机视觉与深度学习CS231n之SVM图像分类
课程作业原地址:CS231n Assignment 1 作业及整理:@谭斌 && @Molly && @寒小阳 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/70214565任务背景 用支持向量机(SVM)的方法去完成图像识别多分类的任务完成一个基于SVM的全向量化损失函数 完成解析原创 2018-01-23 12:58:12 · 11978 阅读 · 0 评论 -
全球名校课程作业分享系列(4)--斯坦福计算机视觉与深度学习CS231n之双层神经网络完成图像多分类
课程作业原地址:CS231n Assignment 1 作业及整理:@林凡莉 && @Molly && @寒小阳 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/791393951 任务在这个练习里,我们将实现一个完全连接的神经网络分类器,然后用CIFAR-10数据集进行测试。2 知识点原创 2018-01-23 14:28:56 · 13424 阅读 · 1 评论 -
全球名校课程作业分享系列(5)--斯坦福计算机视觉与深度学习CS231n之特征抽取与图像分类提升
课程作业原地址:CS231n Assignment 1 作业及整理:@邓妍蕾 && @Molly && @寒小阳 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/791400840.前言我们已经看到,通过用输入图像的像素训练的线性分类器对图像的分类问题已经取得了不错的结果。在这个练习中我们会用对图像像素原创 2018-01-23 15:11:33 · 12484 阅读 · 0 评论 -
机器学习系列(20)_机器学习性能改善备忘单
机器学习最有价值(实际应用最广)的部分是预测性建模。也就是在历史数据上进行训练,在新数据上做出预测。 而预测性建模的首要问题是:如何才能得到更好的结果?这个备忘单基于本人多年的实践,以及我对顶级机器学习专家和大赛优胜者的研究。原创 2016-12-04 10:46:05 · 19764 阅读 · 6 评论 -
机器学习系列(19)_通用机器学习流程与问题解决架构模板
本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。“一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化,以便于在之后应用机器学习模型。这篇文章的重点便在后者—— 应用机器学习模型(包括预处理的阶段)。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体上适用的,当然还有很多被专业”原创 2016-10-24 11:20:13 · 35416 阅读 · 8 评论 -
机器学习系列(13)_SVM碎碎念part1:间隔
欠的总归是要还的,SVM这么神圣的算法是每个学习machine learning的同学可能会头痛却又不得不面对的,即使到现在为止博主这样的Math/CS渣都觉得一定没有领悟到SVM精髓,所以整理了一些边边角角的碎碎念,颤颤巍巍放到这个系列里,算是自己做个总结,也希望能对大家有一点点的帮助。这个SVM系列大部分内容来自Alexandre KOWALCZYK大神的[SVM Tutorial]原创 2016-09-27 10:23:23 · 15154 阅读 · 2 评论 -
机器学习系列(21)_SVM碎碎念part4:无约束最小化问题
原文地址:SVM - Understanding the math - Unconstrained minimization by Alexandre KOWALCZYK 感谢参与翻译同学:@田苗苗 && @樊睿 && @jozee 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/70214565 声明:原创 2018-01-16 21:39:21 · 9660 阅读 · 1 评论 -
全球名校课程作业分享系列(8)--斯坦福计算机视觉与深度学习CS231n之tensorflow实践
课程作业原地址:CS231n Assignment 1 作业及整理:@邓妍蕾 && @郭承坤 && @寒小阳 时间:2018年2月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/79278930在前面的作业中你已经写了很多代码来实现很多的神经网络功能。Dropout, Batch Norm 和 2D卷积是深度学习在计算机原创 2018-02-07 13:07:25 · 6438 阅读 · 1 评论 -
全球名校课程作业分享系列(7)--斯坦福计算机视觉与深度学习CS231n之基于cifar10的卷积神经网络实践
课程作业原地址:CS231n Assignment 1 作业及整理:@张铮 && @郭承坤 && @寒小阳 时间:2018年2月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/79278917问题描述:使用IPython Notebook(现版本为jupyter notebook,如果安装anaconda完整版会内置原创 2018-02-07 13:04:27 · 8108 阅读 · 0 评论 -
全球名校课程作业分享系列(6)--斯坦福计算机视觉与深度学习CS231n之神经网络细解与优化尝试
课程作业原地址:CS231n Assignment 1 作业及整理:编写:@土豆 && @郭承坤 && @寒小阳 时间:2018年2月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/79278882待折腾的数据集关于神经网络你起码应该知道的所谓的前向传播一个神经元的本事强大的层状神经元不废话了看代码原创 2018-02-07 12:58:12 · 9782 阅读 · 1 评论 -
全球名校课程作业分享系列(9)--斯坦福CS231n之RNN与计算机看图说话
课程作业原地址:CS231n Assignment 3 作业及整理:@张礼俊 && @Molly && @寒小阳 时间:2018年2月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/793164111. 问题背景在问题1里,我们要训练一个循环神经网络(Recurrent neural n...原创 2018-02-12 14:05:12 · 4869 阅读 · 2 评论 -
全球名校课程作业分享系列(10)--斯坦福CS231n之Network visualization
课程作业原地址:CS231n Assignment 3 作业及整理:@邓姸蕾 && @Molly && @寒小阳 时间:2018年2月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/79316525引言在这份Notebook里面我们会来探索图像梯度对于生成新图片的用法。当训练模型的时...原创 2018-02-12 14:20:18 · 6272 阅读 · 0 评论 -
全球名校课程作业分享系列(11)--斯坦福CS231n之生成对抗网络
课程作业原地址:CS231n Assignment 3 作业及整理:@邓姸蕾 && @Molly && @寒小阳 时间:2018年2月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/79316554引言CS231N到目前位置,所有对神经网络的应用都是判别式模型,给定一个输入,训练产生一个...原创 2018-02-12 14:23:23 · 5923 阅读 · 2 评论 -
机器学习系列(23)_SVM碎碎念part6:对偶和拉格朗日乘子
原文地址:SVM - Understanding the math - duality-lagrange-multipliers/ by Brandon Amos 感谢参与翻译同学:@Fox && @程超 && @吕征达 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/70214565 声明:版权所有,转原创 2018-01-16 22:44:46 · 8979 阅读 · 2 评论 -
机器学习系列(22)_SVM碎碎念part5:凸函数与优化
原文地址:SVM - Understanding the math - convex-functions/ by Brandon Amos 感谢参与翻译同学:@程亚雄 && @张蒙 && @jozee 时间:2018年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/70214565 声明:版权所有,转载请联系寒小阳 (h原创 2018-01-16 22:42:50 · 10669 阅读 · 1 评论 -
机器学习系列(14)_SVM碎碎念part2:SVM中的向量与空间距离
第一篇博客part1的部分很短,就说了一个事情,SVM在试图找一个Max Margin(最大间隔)的分离超平面。OK,这个部分要补补基础,复习一下数学,为后面的学习做准备(墙裂建议数学基础好的同学略过此节基础内容...)。咱们来看看SVM涉及到的向量和空间距离。原创 2016-09-27 11:59:54 · 17274 阅读 · 6 评论 -
机器学习系列(15)_SVM碎碎念part3:如何找到最优分离超平面
是的,咱们第1篇blog介绍了目标;第2篇blog介绍了向量相关的背景数学知识,看到了如何求解Margin的值;今天这个部分主要目的是和大家一起来看看,选择最优超平面的推理过程。以下是本篇的一个简短目录:如何找到最优超平面如何计算两超平面间的距离SVM的最优化问题是什么原创 2016-09-27 18:36:28 · 37129 阅读 · 5 评论 -
机器学习系列(11)_Python中Gradient Boosting Machine(GBM)调参方法详解
这篇文章详细地介绍了GBM模型。我们首先了解了何为boosting,然后详细介绍了各种参数。 这些参数可以被分为3类:树参数,boosting参数,和其他影响模型的参数。最后我们提到了用GBM解决问题的 一般方法,并且用AV Data Hackathon 3.x problem数据运用了这些方法。原创 2016-09-25 17:33:34 · 106970 阅读 · 30 评论 -
能模仿韩寒小四写作的神奇循环神经网络
我们在深度学习与计算机视觉专栏中看过计算机通过卷积神经网络学会了识别图片的内容——模仿人类的看,而工业界大量的应用也证明了神经网络能让计算机学会听(比如百度的语音识别),于是大量的精力开始投向NLP领域,让计算机学会写也一定是非常有意思的事情,试想一下,如果计算机通过读韩寒和小四的小说,就能写出有一样的调调的文字,这是多带劲的一件事啊。你还别说,还真有这么一类神经网络,能够在NLP上发挥巨大的作用,处理从语言模型..原创 2016-04-26 19:32:19 · 53123 阅读 · 9 评论 -
NLP系列(4)_朴素贝叶斯实战与进阶
本文为朴素贝叶斯的实践和进阶篇,先丢了点干货,总结了贝叶斯方法的优缺点,应用场景,注意点和一般建模方法。紧接着对它最常见的应用场景,抓了几个例子,又来了一遍手把手系列,不管是对于文本主题分类、多分类问题(犯罪类型分类) 还是 情感分析/分类,朴素贝叶斯都是一个简单直接高效的方法。尤其是在和逻辑回归的对比中可以看出,在这些问题中,朴素贝叶斯能取得和逻辑回归相近的成绩,但是训练速度远快于逻辑回归,真正的直接和高效。原创 2016-02-03 15:07:54 · 57218 阅读 · 16 评论 -
深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统
本系统是基于CVPR2015的论文《Deep Learning of Binary Hash Codes for Fast Image Retrieval》实现的海量数据下的基于内容图片检索系统,250w图片下,对于给定图片,检索top 1000相似时间约为1s,其基本背景和原理会在下文提到。2.基本问题与技术大家都知道,基于内容的图像检索系统是根据图像的内容,在已有图像集中找到最『相近』的图片。而这类系统的原创 2016-03-11 15:46:12 · 57154 阅读 · 37 评论 -
机器学习系列(8)_读《Nature》论文,看AlphaGo养成
本文的主要目的是增进分享,交流学习,方便初学者了解AlphaGo中的算法,以及一些机器学习中的常见思路。真正的工程实现过程远比本文介绍得复杂。本文更多是启发式地进行阐述与分析,包括一些作者结合自己的理解进行的简化处理。文章中不严谨和理解不当之处,欢迎大家批评指出,我们努力修改完善。机器学习的第一步都是先了解业务。围棋的业务特点包括其基本规则、对弈特性和下棋的典型思路。根据这些业务特点,我们原创 2016-03-16 11:27:33 · 35054 阅读 · 6 评论 -
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。原创 2016-02-03 15:02:55 · 34390 阅读 · 8 评论 -
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式原创 2016-02-01 09:51:55 · 45167 阅读 · 13 评论 -
机器学习系列(5)_从白富美相亲看特征预处理与选择(上)
讲机器学习为什么要讲相亲?被讨论群里的小伙伴催着相亲,哦不,催着讲特征工程紧啊。只是我们不太敢讲这么复杂高深的东西,毕竟工程实践的经验太复杂了,没有统一的好解释的理论,一般的教材讲这方面的内容不多。我们就打算以一个相亲的故事为例,串一些特征工程的内容。原创 2016-01-08 12:20:33 · 33223 阅读 · 15 评论 -
机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾
f作者: 寒小阳 &&龙心尘 时间:2015年10月。 出处: 声明:版权所有,转载请注明出处,谢谢。手把手机器学习之逻辑回归应用——Kaggle泰坦尼克之灾1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完前两篇逻辑回归的介绍和各个角度理解之后,小伙伴们纷纷表示『好像很高级的样纸,原创 2015-11-12 12:07:12 · 434742 阅读 · 232 评论 -
机器学习系列(9)_机器学习算法一览(附Python和R代码)
写这篇文章的目的,就是希望它可以让有志于从事数据科学和机器学习的诸位在学习算法的路上少走些路。我会在文章中举例一些机器学习的问题,你们也可以在思考解决这些问题的过程中得到启发。我也会写下对于各种机器学习算法的一些个人理解,并且提供R和Python的执行代码。读完这篇文章,读者们至少可以行动起来亲手试试写一个机器学习的程序。原创 2016-04-19 16:04:48 · 46281 阅读 · 4 评论 -
机器学习系列(4)_机器学习算法一览,应用建议与解决思路
我们先带着大家过一遍传统机器学习算法,基本思想和用途。把问题解决思路和方法应用建议提前到这里的想法也很简单,希望能提前给大家一些小建议,对于某些容易出错的地方也先给大家打个预防针,这样在理解后续相应机器学习算法之后,使用起来也有一定的章法。## 2.机器学习算法简述按照不同的分类标准,可以把机器学习的算法做不同的分类。### 2.1 从机器学习问题角度分类我们先从机器学习问题本身分类的角度来看,我们可以分原创 2016-01-06 15:35:17 · 121871 阅读 · 16 评论 -
机器学习系列(12)_XGBoost参数调优完全指南(附Python代码)
这篇文章主要讲了如何提升XGBoost模型的表现。首先,我们介绍了相比于GBM,为何XGBoost可以取得这么好的表现。紧接着,我们介绍了每个参数的细节。我们定义了一个可以重复使用的构造模型的函数。最后,我们讨论了使用XGBoost解决问题的一般方法,在AV Data Hackathon 3.x problem数据上实践了这些方法。希望看过这篇文章之后,你能有所收获原创 2016-09-25 23:35:50 · 213020 阅读 · 41 评论 -
机器学习系列(18)_Kaggle债务违约预测冠军经验分享
债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会陷入到财务方面的困境。最终目的是,通过预测未来两年内债务违约的概率,来改进现有的信用评分制度。这是一个极度复杂和困难的Kaggle挑战,因为银行和各种借贷机构一直都在不断地寻找和优化信用评分的算法。这个模型是银行用来判定原创 2016-10-11 15:54:13 · 52095 阅读 · 8 评论 -
机器学习系列(10)_如何提高深度学习(和机器学习)的性能
我经常被问到诸如`如何从深度学习模型中得到更好的效果`的问题,类似的问题还有:我如何提升准确度,如果我的神经网络模型性能不佳,我能够做什么?对于这些问题,我经常这样回答,“我并不知道确切的答案,但是我有很多思路”,接着我会列出了我所能想到的所有**或许能够给性能带来提升**的思路,。为避免一次次罗列出这样一个简单的列表,我决定把所有想法详细写在这篇博客里。这些思路应该是通用的原创 2016-09-24 23:34:19 · 35667 阅读 · 2 评论 -
机器学习系列(17)_Yelper推荐系统
“推荐”可是个当红话题。Netflix愿意用百万美金召求最佳的电影推荐算法,Facebook也为了登陆时的推荐服务开发了上百个项目,遑论现在市场上各式各样的应用都需要个性化服务。“从互联网中提取信息犹如用消防栓饮水”(Mitchell Kapor)。如今的信息量早已过载,要依据如此嘈杂的信息做出正确决定显然是艰难的。这也是为什么推荐系统日渐流行,尤其在像Netflix, Amazon, Echo,和Facebook原创 2016-10-10 15:38:24 · 27841 阅读 · 17 评论 -
机器学习系列(16)_怎样找到一份深度学习的工作(附学习材料,资源与建议)
如果你是一个软件工程师(或者你现在正在学习这一方面),你肯定有机会听说过深度学习(有时候深度学习缩写为”DL”)。它现在是一个热门、且快速发展的研究领域,解决工业界的一系列问题,从图像识别、手写识别到机器翻译,更甚于AlphaGo4比1击败了世界围棋冠军。 大部分人认为找与深度学习相关的工作应该具有博士学位或者大量的相关经验,但是如果你已经是一名很好的工程师,那你就可以很快、很好的学习这些必要的技能和技巧。原创 2016-10-10 14:43:06 · 37806 阅读 · 13 评论 -
机器学习系列(7)_机器学习路线图(附资料)
计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。近年来互联网数据大爆炸,数据的丰富度和覆盖面远远超出人工可以观察和总结的范畴,而机器学习的算法能指引计算机在海量数据中,挖掘出有用的价值,也使得无数学习者为之着迷。我们不是专家,但说起算有一些从业经验,做过一些项目在实际数据上应用机器学习。这一篇就我们的经验和各位同仁的分享,总结一些对于初学者入门有帮助的方法和对进阶有用的资料。原创 2016-02-28 11:54:10 · 76503 阅读 · 23 评论 -
机器学习系列(1)_逻辑回归初步
1、总述逻辑回归是应用非常广泛的一个分类机器学习算法,它将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够完成对事件发生的概率进行预测。2、由来 要说逻辑回归,我们得追溯到线性回归,想必大家对线性回归都有一定的了解,即对于多维空间中存在的样本点,我们用特征的线性组合去拟合空间中点的分布和轨迹。如下图所示: 线性回归能对连续值结果进行预测,原创 2015-10-14 13:18:43 · 133240 阅读 · 39 评论 -
深度学习与计算机视觉系列(1)_基础介绍
为了简单易读易懂,这个系列中绝大多数的代码都使用python完成。这里稍微介绍一下python和Numpy/Scipy(python中的科学计算包)的一些基础。python是一种长得像伪代码,具备高可读性的编程语言。 优点挺多:可读性相当好,写起来也简单,所想立马可以转为实现代码,且社区即为活跃,可用的package相当多;缺点:效率一般。原创 2015-11-17 00:14:11 · 32016 阅读 · 24 评论 -
机器学习系列(2)_从初等数学视角解读逻辑回归
作者:龙心尘 && 寒小阳 时间:2015年10月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49123419。 声明:版权所有,转载请注明出处,谢谢。一、 引言前一篇文章《机器学习系列(1)_逻辑回归初步》中主要介绍了逻辑回归的由来,作用和简单的应用,这里追加这篇《机器学习系列(2)用初等数学视角解读逻辑回归》来看看从直观原创 2015-10-22 13:24:52 · 36455 阅读 · 22 评论