机器学习
文章平均质量分 77
djd已经存在
······
展开
-
机器学习最佳入门学习资料汇总
来自http://article.yeeyan.org/view/22139/410514这篇文章的确很难写,因为我希望它真正地对初学者有帮助。面前放着一张空白的纸,我坐下来问自己一个难题:面对一个对机器学习领域完全陌生的初学者,我该推荐哪些最适合的库,教程,论文及书籍帮助他们入门?资源的取舍很让人纠结,我不得不努力从一个机器学习的程序员和初学者的角度去思考哪些资源才是最适合他们的原创 2015-06-17 15:53:51 · 1490 阅读 · 0 评论 -
Machine Learning is Fun!
英文出处: https://medium.com/@ageitgey/machine-learning-is-fun-80ea3ec3c471#.xj9vcyte6本指南的读者对象是所有对机器学习有求知欲但却不知道如何开头的朋友。我猜很多人已经读过了“机器学习”的维基百科词条,倍感挫折,以为没人能给出一个高层次的解释。本文就是你们想要的东西。本文目标在于平易近人,这意味着文中有翻译 2015-12-18 14:53:36 · 2788 阅读 · 0 评论 -
告诉你什么叫做"机器学习"-------(楼主力荐)
作者:计算机的潜意识在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这原创 2015-12-18 17:40:48 · 5058 阅读 · 2 评论 -
机器学习入门阶段程序员易犯的5个错误
怎样进入机器学习领域没有定式。我们的学习方式都有些许不同,学习的目标也因人而异。 但一个共同的目标就是要能尽快上手。如果这也是你的目标,那么这篇文章为你列举了程序员们在通往机器学习高手道路上常见的五种错误。 1.将机器学习看得高不可攀 机器学习不过是另一堆技术的集合,你可以用它来解决复杂问题。这是一个飞速发展的领域,因此,机器学习的学术交流一般出现在学术期刊及研究生的课本里原创 2015-12-20 10:40:57 · 1271 阅读 · 0 评论 -
机器学习开发者的学习路径
原文链接:Machine Learning for Programmers: Leap from developer to machine learning practitioner把“单项最优”工具应用到你的处理过程中 机器学习工具和库在不断变化,但在任何一个单一的时间点,你必须使用一些东西,让它很好地应用到你提供的结果选择过程中。翻译 2016-02-24 14:36:53 · 1205 阅读 · 0 评论 -
基于用户的协同过滤算法
什么是推荐算法推荐算法最早在1992年就提出来了,但是火起来实际上是最近这些年的事情,因为互联网的爆发,有了更大的数据量可以供我们使用,推荐算法才有了很大的用武之地。最开始,所以我们在网上找资料,都是进yahoo,然后分门别类的点进去,找到你想要的东西,这是一个人工过程,到后来,我们用google,直接搜索自己需要的内容,这些都可以比较精准的找到你想要的东西,但是,如果我自己都原创 2016-02-24 19:20:37 · 1502 阅读 · 0 评论 -
机器学习基础
何为机器学习:简单地说,机器学习就是把无序的数据转换成有用的信息,利用计算机来彰显数据背后的真实含义;机器学习横跨计算机科学、工程技术和统计学多个学科,需要多学科的专业知识;机器学习对于任何需要解释并操作数据的领域都有所裨益。关键术语:特征(or 属性):如鸟的体重、翼展、脚蹼等特征。目标变量:机器学习算法的预测结果。在分类算法中目标变量的类型通常是标称型(离散型数据,变量原创 2016-05-15 10:26:53 · 2492 阅读 · 0 评论 -
协同过滤推荐之slope one算法
1.示例引入比如说你在京东选购手机iphone和note7:消费者用过后,会有相关的评分。假设评分如下: 评分 iphone note7 小a 4 5 小b 4 3 小c 2 3 小d 3 ? 问题:请猜测一下小d可能会给“note7”打多少分? 思路:把两个手机的平均差值求出来,iphone减去note7的平均偏差:[(4-5)+(4-3)+(原创 2017-01-05 15:30:45 · 1495 阅读 · 0 评论 -
先验概率与后验概率是什么?
一、先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率.事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”原创 2017-01-13 13:52:45 · 2043 阅读 · 0 评论 -
线性回归之最小二乘法简要解析
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。 最小二乘法也是一种优化方法,求得目标函数的最优值。并且也可以用于曲线拟合,来解决回归问题。难怪《原创 2015-12-18 12:01:16 · 3647 阅读 · 0 评论 -
机器学习常见算法分类
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的原创 2015-12-17 16:34:35 · 1206 阅读 · 0 评论 -
PyCon 2014:机器学习应用占据Python的半壁江山
来自http://www.infoq.com/cn/news/2014/07/pycon-2014今年的PyCon于4月9日在加拿大蒙特利尔召开,凭借快速的原型实现能力, Python在学术界得到了广泛应用。最近其官方网站发布了大会教程部分的视频和幻灯片,其中有很多(接近一半数量)跟数据挖掘和机器学习相关的内容,本文对此逐一介绍。如何形式化一个科学问题然后用Python进行分析原创 2015-06-17 16:27:44 · 1522 阅读 · 0 评论 -
机器学习的含义
在听到人们谈论机器学习的时候,你是不是对它的涵义只有几个模糊的认识呢?你是不是已经厌倦了在和同事交谈时只能一直点头?让我们改变一下吧!本指南的读者对象是所有对机器学习有求知欲但却不知道如何开头的朋友。我猜很多人已经读过了“机器学习”的维基百科词条,倍感挫折,以为没人能给出一个高层次的解释。本文就是你们想要的东西。本文目标在于平易近人,这意味着文中有大量的概括。但是谁在乎这些呢?只要原创 2015-10-29 00:09:23 · 1652 阅读 · 0 评论 -
什么是过拟合问题,怎么样避免.
正则化 Regularization 为了和正规方程(normal equation)里”正规”区分开来,这里Regularization都译作“正则化”,有些地方也用的是“正规化”。以下内容来自wikipedia): 正则化是指通过引入额外新信息来解决机器学习中过拟合问题的一种方法。这种额外信息通常的形式是模型复杂性带来的惩罚度。正则化的一种理论解释是原创 2015-11-23 20:24:36 · 2897 阅读 · 0 评论 -
What is Cross Validation(交叉验证)
1.原理1.1 概念交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加和,称为PRESS(predict原创 2015-11-23 20:11:53 · 1883 阅读 · 0 评论 -
斯坦福大学机器学习-有关与过拟合问题
1) The Problem of Overfitting(过拟合问题)拟合问题举例-线性回归之房价问题:a) 欠拟合(underfit, 也称High-bias)b) 合适的拟合:c) 过拟合(overfit,也称High variance)什么是过拟合(Overfitting):如果我们有非常多的特征,那么所学的Hypo原创 2015-11-23 20:25:50 · 1133 阅读 · 0 评论 -
数据挖掘产生的意义-解决的四类问题
数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:1、分类问题分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我猜这个人是个上原创 2015-10-21 23:12:20 · 1483 阅读 · 0 评论 -
数据科学家必知必会的7款Python工具,你会几个?
如果你有志于做一个数据专家,你就应该保持一颗好奇心,总是不断探索,学习,问各种问题。在线入门教程和视频教程能帮你走出第一步,但是最好的方式就是通过熟悉各种已经在生产环境中使用的工具而为成为一个真正的数据专家做好充分准备。我咨询了我们真正的数据专家,收集整理了他们认为所有数据专家都应该会的七款 Python 工具。The Galvanize Data Science 和 GalvanizeU原创 2015-12-14 16:26:03 · 1276 阅读 · 0 评论 -
推荐系统学习:协同过滤实现
推荐系统的评测指标为了评估推荐算法的好坏需要各方面的评估指标。准确率准确率就是最终的推荐列表中有多少是推荐对了的。召回率召回率就是推荐对了的占全集的多少。下图直观地描述了准确率和召回率的含义覆盖率覆盖率表示推荐的物品占了物品全集空间的多大比例。新颖度新颖度是为了推荐长尾区间的物品。用推荐列表中物品的平均流行度度量推荐结果的新颖度。原创 2015-12-16 16:36:58 · 1479 阅读 · 0 评论 -
随机森林到底是啥?
理解随机森林 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。随机森林主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。1.随机选择样本 给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集转载 2017-01-13 14:33:33 · 1589 阅读 · 0 评论