机器学习
文章平均质量分 69
ncst
这个作者很懒,什么都没留下…
展开
-
公布代码的大牛
序号姓名链接1南京大学,周志华主页, LMADA实验室主页2香港理工大学,张磊主页3深圳大学,杨猛主页4哈尔滨工业大学深圳研究生院,徐勇主页5University of Exeter,Yiming Ying个人主页 ,代码主页6浙江大学,蔡登个人主页 ,代码主页7中科院自动化所,向世明个人主页8MA YI个人主页9中科院自动化所 Shiguang Shan (山世光)个人主页 代码主页10深圳大...转载 2018-03-22 15:28:56 · 2491 阅读 · 1 评论 -
Deciding What to Do Next Revisited
Deciding What to Do Next RevisitedOur decision process can be broken down as follows:Getting more training examples: Fixes high varianceTrying smaller sets of features: Fixes high variance转载 2017-07-24 17:49:04 · 335 阅读 · 0 评论 -
Learning Curves
Learning CurvesTraining an algorithm on a very few number of data points (such as 1, 2 or 3) will easily have 0 errors because we can always find a quadratic curve that touches exactly those number转载 2017-07-24 17:35:42 · 411 阅读 · 0 评论 -
Regularization and Bias/Variance
Regularization and Bias/VarianceNote: [The regularization term below and through out the video should be λ2m∑nj=1θ2j and NOT λ2m∑mj=1θ2j]In the figure above, we see that as λ increases, our fi原创 2017-07-24 16:27:55 · 277 阅读 · 0 评论 -
Diagnosing Bias vs. Variance
Diagnosing Bias vs. VarianceIn this section we examine the relationship between the degree of the polynomial d and the underfitting or overfitting of our hypothesis.We need to distinguish whethe原创 2017-07-24 16:26:41 · 266 阅读 · 0 评论 -
SVM NG机器学习
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning原创 2017-07-31 10:00:17 · 431 阅读 · 0 评论 -
SVM简介
SVM的文章介绍多如牛毛,很多介绍都非常详尽,而我却一点都不开窍,始终无法理解其中的奥秘。这次,我要用自己粗浅的语言,来撩开我与SVM之间的面纱。1. SVM是要解决什么问题?之前,冲上来就看SVM的应用,简介,最优化计算方法等。从没认真想过SVM要解决什么问题。下面一幅是常用的图,来解释SVM的需求。SVM最基本的应用是分类。 求解最优的分类面,然后用转载 2017-07-31 09:57:41 · 478 阅读 · 0 评论 -
TensorFlow Dropout
TensorFlow Dropout图 1:来自论文 "Dropout: A Simple Way to Prevent Neural Networks from Overfitting" (https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf)原创 2017-07-09 16:13:33 · 1844 阅读 · 0 评论 -
学习曲线
本文结构:学习曲线是什么?怎么解读?怎么画?学习曲线是什么?学习曲线就是通过画出不同训练集大小时训练集和交叉验证的准确率,可以看到模型在新数据上的表现,进而来判断模型是否方差偏高或偏差过高,以及增大训练集是否可以减小过拟合。怎么解读?当训练集和测试集的误差收敛但却很高时,为高偏差。左上角的偏差很高,训练集和验证集的准确率都很低,很可能是欠拟合。我转载 2017-07-30 10:48:23 · 664 阅读 · 0 评论 -
xgboost简介
在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是什么以及如何应用。本文结构:什么是 xgboost?为什么要用它?怎么应用?学习资源什么是 xgboost?XGBoost :eXtreme Gradient Boosting项目地址:https://github.com/d转载 2017-07-30 10:46:32 · 1866 阅读 · 0 评论 -
NG机器学习week11 Application: Photo OCR
1。Suppose you are running a sliding window detector to findtext in images. Your input images are 1000x1000 pixels. Youwill run your sliding windows detector at two scales, 10x10and 20x20原创 2017-08-09 12:50:00 · 1929 阅读 · 5 评论 -
NG week8 unsupervised learning
答案:1.CD 2.B 3.AB 4.D 5.CDUnsupervised Learning5 试题1. For which of the following tasks might K-means clustering be a suitable algorithm? Select all that apply.原创 2017-08-02 21:54:35 · 647 阅读 · 0 评论 -
结构化数据和非结构化数据简介
结构化数据与非结构化数据结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。 非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。 半结构化数据:就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结转载 2017-08-09 22:45:01 · 1401 阅读 · 0 评论 -
GBDT算法解析
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generaliz...转载 2018-03-08 10:03:09 · 949 阅读 · 0 评论 -
NG机器学习week5 Neural Networks: Learning
Neural Networks: Learning5 试题1. You are training a three layer neural network and would like to use backpropagation to compute the gradient of the cost function. In the b原创 2017-08-14 15:54:30 · 1216 阅读 · 5 评论 -
NG机器学习week9 Recommender System
1point1. Suppose you run a bookstore, and have ratings (1 to 5 stars)of books. Your collaborative filtering algorithm has learneda parameter vector θ(j) for user j, and a f原创 2017-08-06 16:34:19 · 2072 阅读 · 1 评论 -
NG机器学习week9 Anomaly Detection
答案:1. BC 2. A3. D 4. BD5. AAnomaly Detection5 试题1. For which of the following problems would anomaly detection be a suitable algorithm?Given原创 2017-08-05 21:44:52 · 1293 阅读 · 1 评论 -
解决coursera课程国内打不开的问题
如果你知道如何在mac和windows系统,修改hosts文件,直接就打开hosts,添加一行 52.84.246.72 d3c33hcgiwev3.cloudfront.net 保存就可以了。但是如果你不知道,就听我再啰嗦几句吧。。。如果你是Mac系统,那么你就按照以下步骤来Find 前往->前往文件夹 ,在弹出的对话框里面 输入 /private/etc/,然后找到原创 2017-08-14 15:32:13 · 58258 阅读 · 12 评论 -
NG机器学习week6 Advice for Applying Machine Learning
1point1. You train a learning algorithm, and find that it has unacceptably high error on the test set. You plot the learning curve, and obtain the figure below. Is the algorithm suffer原创 2017-08-19 09:31:10 · 943 阅读 · 5 评论 -
强化学习简明教程
本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料。第一转载 2017-07-27 11:25:06 · 415 阅读 · 0 评论 -
NG week1
1.A computer program is said to learn from experience E withrespect to some task T and some performance measure P if itsperformance on T, as measured by P, improves with experi原创 2017-08-03 17:59:27 · 546 阅读 · 0 评论 -
NG week8 PCA
答案:1. AB 2. D 3.C 4. BD 5. ADPrincipal Component Analysis5 试题1. Consider the following 2D dataset:Which of the following figures correspond to possible valu原创 2017-08-03 17:53:18 · 596 阅读 · 0 评论 -
特征选择算法简介
(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特原创 2017-06-14 19:42:41 · 1355 阅读 · 0 评论 -
反向传播
反向传播现在我们来到了如何让多层神经网络学习的问题上。之前我们了解了如何用梯度下降来更新权重。反向传播算法是它的一个延伸,用链式法则来找到误差与输入层到输入层链接的权重(两层神经网络)。要更新输入到隐藏层的权重,你需要知道隐藏层节点的误差对最终输出的影响是多大。输出是由两层之间的权重决定的,这个误差是输入跟权重在网络中正向传播的结果。既然我们知道输出误差,我们可以用权重来反向传播到原创 2017-07-02 19:56:41 · 724 阅读 · 0 评论 -
实现多层感知机
实现隐藏层先修要求接下来我们会讲神经网络在多层感知器里面的数学部分。讲多层感知器我们会用到向量和矩阵。你可以通过下列讲解对此做个回顾:Khan Academy's introduction to vectors.Khan Academy's introduction to matrices.由来之前我们研究的是有一个输出节点网络,代码也很直观原创 2017-07-02 18:27:32 · 861 阅读 · 0 评论 -
创建感知机 python
# ----------# # In this exercise, you will add in code that decides whether a perceptron will fire based# on the threshold. Your code will go in lines 32 and 34. ## ----------import numpy as npcl原创 2017-05-22 20:18:57 · 478 阅读 · 0 评论 -
贝叶斯方法
本文由LeftNotEasy原创,可以转载,但请保留出处和此行,如果有商业用途,请联系作者 wheeleast@gmail.com 一. 简单的说贝叶斯定理:贝叶斯定理用数学的方法来解释生活中大家都知道的常识形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法,最常见的就是贝叶斯定理。转载 2017-06-01 20:24:47 · 864 阅读 · 0 评论 -
NLP创建最大可能的分词
sample_memo = '''Milt, we're gonna need to go ahead and move you downstairs into storage B. We have some new people coming in, and we need all the space we can get. So if you could just go ahead and原创 2017-06-04 18:07:24 · 505 阅读 · 0 评论 -
F1分数
F1分数:既然已经讨论了precise(精确率)recall(回召率),接下来将使用一个新的机器学习指标F1分数,F1分数会同时考虑精确率和回召率,以便重新计算新的分数。F1分数可以理解为:精确率和召回率的加权平均值。其中F1分数的最佳为1,最差为0;F1 = 2 * (precise * recall) / (precise + recall)原创 2017-05-10 00:33:13 · 9320 阅读 · 0 评论 -
准确率的概念
准确率最基本和最常见的分类指标就是准确率。在这里,准确率被描述为在特定类的所有项中正确分类或标记的项的数量。举例而言,如果教室里有 15 个男孩和 16 个女孩,人脸识别软件能否正确识别所有男孩和所有女孩?如果此软件能识别 10 个男孩和 8 个女孩,则它的识别准确率就是 60%:准确率 = 正确识别的实例的数量/所有实例数量有关准确率和如何在 sklearn 中使原创 2017-05-09 16:12:00 · 1682 阅读 · 0 评论 -
贝塞尔矫正
贝塞尔矫正原创 2017-05-07 22:38:28 · 1100 阅读 · 0 评论 -
项目 0: 预测泰坦尼克号乘客生还率
项目 0: 预测泰坦尼克号乘客生还率1912年,泰坦尼克号在第一次航行中就与冰山相撞沉没,导致了大部分乘客和船员身亡。在这个入门项目中,我们将探索部分泰坦尼克号旅客名单,来确定哪些特征可以最好地预测一个人是否会生还。为了完成这个项目,你将需要实现几个基于条件的预测并回答下面的问题。我们将根据代码的完成度和对问题的解答来对你提交的项目的进行评估。提示:这样的文字将会指导你如何使用原创 2017-05-06 15:52:23 · 3518 阅读 · 1 评论 -
Sigmoid python实现
# ----------# # As with the previous perceptron exercises, you will complete some of the core# methods of a sigmoid unit class.## There are two functions for you to finish:# First, in activate(),原创 2017-05-23 22:54:47 · 14331 阅读 · 0 评论 -
使用感知机创建XOR网络
使用感知机创建XOR网络的重点是使用and 和 or规则进行组合来完成。# ----------## In this exercise, you will create a network of perceptrons that can represent# the XOR function, using a network structure like those shown in the原创 2017-05-23 21:22:09 · 897 阅读 · 0 评论 -
AdaBoost算法应用
本文转载自http://blog.csdn.net/suipingsp/article/details/41722435?utm_source=tuicool&utm_medium=referral====================================第一节,元算法略述遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果。如同专家团临床会转载 2017-06-08 10:38:56 · 3388 阅读 · 0 评论 -
决策树、SVM、AdaBoost方法的比较
- 选择的算法:决策树、集成方法、支撑向量机决策树模型在真实世界中也应用场景在金融方面使用决策树建模分析,用于评估用户的信用、贷款违约率等;在电子商务中,可以根据用户的以往的交易种类、时间、价格建立商品推荐体统等。引用连接: 信贷方面的应用 电商推荐系统 这个模型的优势是什么? 决策树易于实现和理解;对于决策树,数据的准备工作一般比较简单;能够同时处理多种数据类型给定一个决策树模型原创 2017-06-08 10:53:17 · 12976 阅读 · 0 评论 -
CNNs 可视化
CNNs 可视化让我们看一个 CNN 的例子,了解它如何运作。我们看到的训练 ImageNet 的 CNN 例子,来自 Zeiler 和 Fergus 的论文 。在下图中(同样取自此论文),我们会看到网络中的每一层侦测到什么,看到每一层如何侦测更复杂的概念。第一层原创 2017-07-10 21:15:53 · 637 阅读 · 0 评论 -
交叉验证与网格搜索
机器学习方法的关系图原创 2017-06-10 21:04:39 · 26181 阅读 · 2 评论 -
交叉验证与网格搜索
交叉验证与网格搜索交叉验证与网格搜索是机器学习中的两个非常重要且基本的概念,但是这两个概念在刚入门的时候并不是非常容易理解与掌握,自己开始学习的时候,对这两个概念理解的并不到位,现在写一篇关于交叉验证与网格搜索的文章,将这两个基本的概念做一下梳理。网格搜索网格搜索(Grid Search)名字非常大气,但是用简答的话来说就是你原创 2017-06-10 21:02:08 · 834 阅读 · 0 评论 -
交叉验证与网格搜索
交叉验证与网格搜索交叉验证与网格搜索是机器学习中的两个非常重要且基本的概念,但是这两个概念在刚入门的时候并不是非常容易理解与掌握,自己开始学习的时候,对这两个概念理解的并不到位,现在写一篇关于交叉验证与网格搜索的文章,将这两个基本的概念做一下梳理。网格搜索网格搜索(Grid Search)名字非常大气,但是用简答的话来说就是你原创 2017-06-10 21:00:43 · 1170 阅读 · 0 评论