机器学习与数据挖掘
南山牧笛
只有站在高处,才会看见更美丽的风景
展开
-
奇异值分解(SVD) --- 线性变换几何意义
作者:余露来源:http://blog.sciencenet.cn/blog-696950-699380.html PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,转载 2016-11-27 14:51:24 · 545 阅读 · 0 评论 -
龙星镖局 | 2015 机器学习颁奖礼
新智元推荐1作者:@龙星镖局感谢龙星镖局给新智元颁发最佳传播媒体奖,新智元的小伙伴很受鼓舞,2016 年再接再厉,给关注新智元的朋友们提供高质量资讯!技 术 类1.最佳学术研究奖题目:Human-level concept learning through probabilistic progr转载 2016-02-05 11:44:16 · 907 阅读 · 0 评论 -
机器学习算法入门之(一)梯度下降法实现线性回归
1. 背景文章的背景取自An Introduction to Gradient Descent and Linear Regression,本文想在该文章的基础上,完整地描述线性回归算法。部分数据和图片取自该文章。没有太多时间抠细节,所以难免有什么缺漏错误之处,望指正。线性回归的目标很简单,就是用一条线,来拟合这些点,并且使得点集与拟合函数间的误差最小。如果这个函数曲线是一条直线,那就被称转载 2016-01-28 19:19:19 · 2753 阅读 · 0 评论 -
【机器学习】神经网络-激活函数-面面观(Activation Function)
神经网络之激活函数(Activation Function)本博客仅为作者记录笔记之用,不免有很多细节不对之处。还望各位看官能够见谅,欢迎批评指正。更多相关博客请猛戳:http://blog.csdn.net/cyh_24如需转载,请附上本文链接:http://blog.csdn.net/cyh_24/article/details/50593400日常 cod转载 2016-01-28 19:17:49 · 646 阅读 · 0 评论 -
以Attention Model为例谈谈两种研究创新模式
/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 各位观众朋友好,也许此刻您刚打开电梯…….读这一篇之前,请您最好先拜读一下本篇的前传:文本处理中的Attention Model:是什么及为什么。因为那里转载 2016-01-27 23:20:25 · 785 阅读 · 0 评论 -
构建实战机器学习系统的10点经验(二)
原文:10 More lessons learned from building real-life Machine Learning systems — Part II 译者:刘翔宇 审校:赵屹华 责编:周建丁在我上一篇博客中,我介绍了10点新的经验,并且讲述了其中5个。那么现在来讲讲剩下的5个吧。6.特征工程的烦恼与收获一个性能良好的机器学习特征的主要特转载 2016-01-27 23:14:19 · 398 阅读 · 0 评论 -
大数据分析与机器学习领域Python兵器谱
大数据邦 · 2015-01-27 08:59曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工转载 2015-12-25 00:16:58 · 787 阅读 · 0 评论 -
用K-均值聚类来探索顾客细分
http://python.jobbole.com/83498/本文由 伯乐在线 - 高冷的精神污染 翻译,toolate 校稿。未经许可,禁止转载!英文出处:Greg。欢迎加入翻译组。基于 Python 的顾客细分在这篇文章中,我要谈的东西是相对简单,但却是对任何业务都很重要的:客户细分。客户细分的核心是能够识别不同类型的客户,然后知道如何找到更多这样的人,这样你转载 2015-12-06 15:06:28 · 2210 阅读 · 0 评论 -
聚类算法总结
一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法根转载 2016-01-24 23:53:57 · 19291 阅读 · 0 评论 -
机器学习和统计模型的差异
2016年01月21日数据挖掘在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。在这篇文章中,我将尽最大的努力来展示机转载 2016-01-24 13:16:27 · 3653 阅读 · 0 评论 -
应用于深度学习和自然语言处理的注意机制和记忆模型
深度学习近期的一个趋势是使用注意机制(Attention Mechanism),OpenAI研究负责人Ilya Sutskever在最近的一次采访中提到了注意机制是最令人激动的进步之一,而且它们将就此扎根下来。这听起来令人兴奋不已,但注意机制到底是什么?神经网络中的注意机制大体是基于从人类视觉中发现的注意机制。对人类视觉注意力的研究较为透彻,目前存在几个不同模型,但归根结底,它们在本质上都转载 2016-01-20 22:51:15 · 777 阅读 · 0 评论 -
已经证实提高机器学习模型准确率的八大方法
我从实践中学习了到这些方法。相对于理论,我一向更热衷于实践。这种学习方式也一直在激励我。本文将分享 8 个经过证实的方法,使用这些方法可以建立稳健的机器学习模型。希望我的知识可以帮助大家获得更高的职业成就。 导语 提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是 9转载 2016-02-08 20:21:04 · 2560 阅读 · 0 评论 -
R语言学习路线和常用数据挖掘包
对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式,最好的方式是——看书。目前,市面上介绍R语言的书籍很多,中文英文都有。那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问。有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语转载 2016-02-08 20:47:37 · 1025 阅读 · 1 评论 -
深度学习框架的评估与比较
人工智能无疑是计算机世界的前沿领域,而深度学习无疑又是人工智能的研究热点,那么现在都有哪些开源的深度学习工具,他们各自的优缺点又是什么呢?最近zer0n和bamos在GitHub上发表了一篇文章,对Caffe、CNTK、TensorFlow、Theano和Torch等深度学习工具从网络、模型能力、接口、部署、性能、架构、生态系统、跨平台等方面做了比较。网络和模型能力Caffe可能是转载 2016-01-30 19:10:51 · 879 阅读 · 0 评论 -
CNCC 2016 | 周志华 57 张 PPT 揭开机器学习本质
雷锋网按:本文根据周志华教授今天上午在 CNCC 2016 上所做的大会特邀报告《机器学习:发展与未来》编辑整理而来,在未改变原意的基础上略作了删减。周志华, CCF 会士、常务理事、人工智能专委主任。南京大学教授,校学术委员会委员,计算机软件新技术国家重点实验室常务副主任。AAAI Fellow, IEEE Fellow, IAPR Fellow,ACM 杰出科学家。长江转载 2016-11-27 14:32:43 · 2031 阅读 · 0 评论 -
机器学习中,有哪些特征选择的工程方法?
知乎用户 ,做过几个机器学习系统237 人赞同特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:1. 计算每一个特征与响应变量的相关性转载 2016-06-29 00:30:22 · 3193 阅读 · 0 评论 -
Deep Residual Networks for Image Classification with Python + NumPy
https://dnlcrl.github.io/projects/2016/06/22/Deep-Residual-Networks-for-Image-Classification-with-Python+NumPy.htmlTL;DRI wanted to implement “Deep Residual Learning for Image Recognition” f转载 2016-06-29 00:27:06 · 1192 阅读 · 0 评论 -
构建机器学习系统的20个经验教训
数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言来传授的。最近Devendra Desale就在KDnuggets上发表了一篇文章,总结了Quora的工程副总裁Xavier Amatriain在Netflix和Quora从事推荐系统和机器学习工作时所总结的20条经转载 2016-06-29 00:24:10 · 565 阅读 · 0 评论 -
机器学习实战1:朴素贝叶斯模型:文本分类+垃圾邮件分类
http://www.cnblogs.com/rongyux/p/5602037.html原创 2016-06-29 00:20:15 · 1228 阅读 · 0 评论 -
整理:深度学习 vs 机器学习 vs 模式识别
摘要:本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工智能)的联系,让你更好的理解计算机视觉,同时直观认识机器学习的缓慢发展过程。【编者按】本文来自CMU的博士,MIT的博士后,vision.ai的联合创始人Tomasz Malisiewicz的个人博客文章,阅读本文,你可以更好的理解计算机视觉是怎么一回事,同时对机转载 2016-05-22 23:20:47 · 2024 阅读 · 0 评论 -
计算广告与机器学习-技术共享平台
计算广告与机器学习(英文:Computational Advertising and Machine Learning;简称CAML)大家好,欢迎来到CAML技术共享平台!猴年到,祝大家春节愉快,万事如意!!!CAML平台致力于整理和分享互联网广告领域的核心问题和解决方案。作者水平有限,期望能与对此话题感兴趣的朋友一起学习、交流和分享。众所周知,机器学习是一门交叉性很强的学科,而我转载 2016-02-08 20:51:50 · 1197 阅读 · 2 评论 -
【推荐】大规模的自然场景文字检测与识别数据库
http://vision.cornell.edu/se3/coco-text/转载 2016-02-02 23:55:03 · 1487 阅读 · 0 评论 -
【推荐】大规模的自然场景文字检测与识别数据库
http://vision.cornell.edu/se3/coco-text/原创 2016-02-02 23:46:17 · 1881 阅读 · 0 评论 -
贝叶斯的路——概率论迷思
出自数盟原文地址:http://dataunion.org/11650.html 一个家庭有两个孩子,其中一个是男孩,问另一个也是男孩的概率多少?如对于第一个问题,如果没有“那个家庭”,那么生出一个男孩的概率必然是1/2。可是对那个家庭来说,(相当于我们换了一个样本空间)一共就是{男男,男女,女男}三种情况,那么即是1/3。我想,任何一个进入概率论(然后才是统计学)大门转载 2016-02-02 23:45:09 · 1283 阅读 · 0 评论 -
【推荐】公共领域高质量公开数据集列表
https://github.com/caesar0301/awesome-public-datasets转载 2016-02-02 23:16:58 · 1970 阅读 · 0 评论 -
机器之心
http://www.almosthuman.cn/2016/01/19/rxkpr/原创 2016-01-20 22:49:25 · 556 阅读 · 0 评论 -
掰一掰GitHub上优秀的大数据项目
VMware CEO Pat Gelsinger曾说:数据科学是未来,大数据分析则是打开未来之门的钥匙企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。转载 2016-01-20 22:11:53 · 3464 阅读 · 0 评论 -
2D Deconvolution for Image Reconstruction
"真理本身之所以是真理,就在于它穿透了语言的有限性而将人带入到对真实世界的直观把握中。" ——http://my1510.cn/article.php?id=69054最近在做sparse coding, 用Bruno Olshausen最原始的方法, 因此却发现了一些背后直感上更接近真理的东西。中间有一步需要通过得到的sparse响应重建输入图像,之前一直是用Matlab for转载 2015-08-27 14:29:36 · 663 阅读 · 0 评论 -
学习与职业规划——机器学习的学习路径和职业规划(简单版)
第三章 机器学习的职业规划一、含义与方法1、本文所说的“职业规划”是指经过对自我的认知,和行业,公司,职业的认知,确定一个或者几个工作目标,并进行相应的差距分析和提升的过程。2、职业规划可以理解为一个匹配的过程;将个人和众多的备选职位进行匹配。按照传统的职业相关理论,结合机器学习者的思维习惯,本文把职业规划分为个人认知(相当于取人的feature),职业认知(相当于获取职业转载 2015-07-31 22:08:20 · 2431 阅读 · 0 评论 -
一些Deep Network代码的整理
这里指的Deep Network包括: Convolutional Sparse Coding, Deep RBM, TCNN,Sparse Autoencoder等等。这方面的基本知识可以参照1. http://deeplearning.net/tutorial/2. http://ufldl.stanford.edu/wiki/index.php/Main_Page转载 2015-08-27 14:27:27 · 1030 阅读 · 0 评论 -
Reservoir Computing简介
最近主要在看Reservoir Computing。RC这个领域是由两篇twin paper共同确立的,这两篇paper一个从Engineering的角度提出了Echo State Network的概念,另一个从bio的角度提出了Liquid State Machine的概念。这两篇paper的链接如下,有兴趣可以拿来参考:The "echo state" approach to anal转载 2015-08-27 14:30:19 · 2599 阅读 · 0 评论 -
正负样本不平衡的解决方法
8 Tactics to Combat Imbalanced Classes in Your Machine Learning Datasetby Jason Brownlee on August 19, 2015 in UncategorizedHas this happened to you?You are working on your dataset转载 2015-08-24 23:00:24 · 5770 阅读 · 0 评论 -
Class Imbalance Problem
What is the Class Imbalance Problem?It is the problem in machine learning where the total number of a class of data (positive) is far less than the total number of another class of data (negative)转载 2015-08-24 21:35:16 · 1281 阅读 · 0 评论 -
迁移学习
本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料。第一转载 2015-07-28 10:35:11 · 592 阅读 · 0 评论 -
机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
人工智能、机器学习、模式识别、计算机视觉、数据挖掘、信息检索、自然语言处理等作为计算机科学重要的研究分支,不论是学术界还是工业界,有关这方面的研究都在如火如荼地进行着,学习这些方面的内容有一些经典书籍,现总结如下,方便自己和大家以后学习研究:人工智能:《Artificial Intelligence: A Modern Approach》,第三版,Russell著,权威、经典的人工转载 2015-07-28 21:36:11 · 437 阅读 · 0 评论 -
数据分析与数据挖掘类的职位必备技能
大数据催生数据分析师 薪酬比同等级职位高20%随着大数据在国内的发展,大数据相关人才却出现了供不应求的状况,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。大数据分析师是做什么的?阿里巴巴集团研究员薛贵荣就曾表示,“大数据分析师就是一群玩数据的人,玩出数据的商业价值,让数据变成生产力。”而大数据和传统数据的最大区别在于,它是在线的、实时的、规模海量且形式不规整,无章法转载 2015-08-08 20:17:02 · 4178 阅读 · 0 评论 -
如何快速成为数据分析师?
转自http://www.zhihu.com/question/29265587/answer/44010658最近一直忙啊,都没机会上知乎。好多同学私信我说出版社的事情,说买不到书籍,我好想给你们一个淘宝链接做个广告啊~~ 不过想想还是算了,又担心别人说是广告贴~(开玩笑的)!因为我时间比较紧,也没啥时间去找出版社,不过其实大家大可不必一定要找到一模一样的书,有其它很多优秀的转载 2015-08-08 20:41:35 · 778 阅读 · 0 评论 -
如何准备机器学习工程师的面试 ?
如何准备机器学习工程师的面试 ?我之前面试一些公司的机器学习或者数据挖掘工程师的职位。感觉自己准备的不够充分。想了解下一般会问哪些问题,考察哪些方面的东西。4 条评论 分享按投票排序按时间排序18 个回答赞同355反对,不会显示你的姓名周开拓,推荐系统PM@淘宝jiang wil转载 2015-07-27 21:14:11 · 919 阅读 · 0 评论 -
一些做大脑研究和仿脑应用的公司
昨天点开HTM的Wiki主页,无意间发现Wiki上更新了Numenta公司创始人之一Dileep新开的blog: Mind Matter。于是顺藤摸瓜找到了他的个人主页,惊讶的发现主页上赫然写着此兄已离开Numenta开新公司去了:I am on an extended leave of absence from Numenta to explore forming a new company转载 2015-08-27 14:31:14 · 711 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。转载 2015-08-02 13:42:59 · 406 阅读 · 0 评论