机器学习
文章平均质量分 93
豆芽炒粉丝
世上万事,不过一拖二闹三不读书。
展开
-
机器学习--线性回归R语言
回归分析就是利用样本,产生拟合方程,从而进行预测。简而言之,就是你用你手头上的数据进行模型的训练,然后用你得到的模型对于新数据进行预测。一元线性回归:例子:y<- c(61,57,58,40,90,35,68)#weightx<-c(170,168,175,153,185,135,172) #heightplot(x,y)z<- lm(y~x+1)#假设y=ax+blines(x,fitte原创 2016-01-20 16:23:05 · 22953 阅读 · 4 评论 -
Coursera机器学习-第十周-Large Scale Machine Learning
Gradient Descent with Large DatasetsLearning With Large Datasets 我们已经知道,得到一个高效的机器学习系统的最好的方式之一是,用一个低偏差(low bias)的学习算法,然后用很多数据来训练它。 下面是一个区分混淆词组的例子: 但是,大数据存在一个问题,当样本容量m=1,000时还行,但是当m=100,000,000呢?请看一下原创 2016-06-23 15:47:21 · 4889 阅读 · 0 评论 -
Machine Learning-Recommender Systems(推荐系统)
Predicting Movie Ratings Problem Formulation 推荐系统问题就是,给定这些数据,给定这些 r(i,j)r(i, j) 和y(i,j) y(i, j) 数值,然后浏览全部数据,关注所有没有电影评分的地方,并试图预测这些带问号的地方应该是什么数值。 Content Based Recommendations 对于每一部电影,我们都有一个特征向量来描述它原创 2016-06-21 15:25:57 · 2413 阅读 · 0 评论 -
Machine Learning: Clustering and Similarity: Retrieving Documents
Retrieving documents of interset 问题描述: 根据你目前所阅读,感兴趣的文章,找到相似的文章。 所需解决难题:如何度量相似性?如何去搜索文章?Word count representation for measuring similarity 这里有一段文字,对每个单词进行统计,比如下面: Measuring similarity 例如,有如下两篇原创 2016-07-28 10:08:19 · 607 阅读 · 0 评论 -
Coursera机器学习-第七周-Support Vector Machine
Large Margin Classification 支持向量机(Support vector machine)通常用在机器学习 (Machine learning)。是一种监督式学习 (Supervised Learning)的方法,主要用在统计分类 (Classification)问题和回归分析 (Regression)问题上。支持向量机属于一般化线性分类器,也可以被认为是提克洛夫规范化(Ti原创 2016-06-13 10:24:40 · 6475 阅读 · 1 评论 -
Coursera机器学习-第八周-Unsupervised Learning(K-Means)
ClusteringUnsuperivised Learning:Intruduction 典型的Supervised Learning 有一组附标记(y(i)y^{(i)})的训练数据集, 我们想要找出决策边界,藉此区分开正(positive)或负(negative)标记数据。 Unsupervised Learning 我们面对的是一组无标记的训练数据,数据之间,不原创 2016-06-12 09:30:10 · 4256 阅读 · 0 评论 -
Machine Leanring-Principal Component Analysis(PCA)
Principal Component Analysis 方差:数据与平均数之差平方和的平均数。更多详见 Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。通俗的理解,如果把所有的点都映射到一起,那么几原创 2016-06-12 09:01:17 · 3133 阅读 · 1 评论 -
Machine Learning Foundations: A Case Study Approach-Regression-Assignment: Predicting House Prices
Predicting house pricesIn this module, we focused on using regression to predict a continuous value (house prices) from features of the house (square feet of living space, number of bedrooms,…). We al原创 2016-06-26 21:07:43 · 3331 阅读 · 0 评论 -
Coursera机器学习-第九周-Anomaly Detection
Density EstimationProblem Motivation 所谓异常检测就是发现与大部分对象不同的对象,其实就是发现离群点,异常检测有时也称偏差检测,异常对象是相对罕见的。 应用:欺诈检测:主要通过检测异常行为来检测是否为盗刷他人信用卡。 入侵检测:检测入侵计算机系统的行为 医疗领域:检测人的健康是否异常 下面来看一个例子: x1x_1: 引擎运转时产生的热量 x2x_2原创 2016-06-18 13:57:12 · 5964 阅读 · 2 评论 -
Coursera机器学习-第六周-Advice for Applying Machine Learning
Evaluating a Learning Algorithm Desciding What to Try Next Evaluating a Hypothesis Model Selection and Train/Validation/Test sets Bias vs. Variance Diagnosing Bias vs. Variance原创 2016-06-01 07:58:34 · 4370 阅读 · 0 评论 -
Coursera机器学习-第四周-Neural Network ForwardPropagation
Neural NetWork的由来先考虑一个非线性分类,当特征数很少时,逻辑回归就可以完成了,但是当特征数变大时,高阶项将呈指数性增长,复杂度可想而知。如下图:对房屋进行高低档的分类,当特征值只有x1,x2,x3x_1,x_2,x_3时,我们可以对它进行处理,分类。但是当特征数增长为x1,x2....x100x_1,x_2....x_100时,分类器的效率就会很低了。 这里的g(z)=1/(1+e原创 2016-05-14 10:24:30 · 5464 阅读 · 0 评论 -
Coursera机器学习-第三周-逻辑回归Logistic Regression
Classification and Representation 1. Classification Linear Regression (线性回归)考虑的是连续值([0,1]之间的数)的问题,而Logistic Regression(逻辑回归)考虑的是离散值(例如只能取0或1而不能取0到1之间的数)的问题。举个例子,你需要根据以往季度的电力数据,预测下一季度的电力数据,这个时候需要使用的是线原创 2016-05-10 10:41:40 · 4366 阅读 · 0 评论 -
机器学习推荐资料
C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。通用机器学习MLPackDLibecoggsharkClosure通用机器学习Closure Toolbox—Clojure语言库与工具的分类目录转载 2016-05-11 08:53:22 · 1452 阅读 · 0 评论 -
Coursera机器学习-第五周-Neural Network BackPropagation
Cost Function and BackpropagationCost Function 假设有样本m个。x(m)x^{(m)}表示第m个样本输入,y(m)y^{(m)}表示第m个样本输出,LL表示网络的层数,sls_l表示在ll层下,神经但愿的总个数(不包括偏置bias units),SLS_L表示输出单元的个数 当遇到二分问题时,SL=1,y=0or1S_L=1,y=0 or 1,原创 2016-05-22 22:17:14 · 6716 阅读 · 0 评论 -
Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化(Regularization)”
斯坦福大学机器学习第七课”正则化“学习笔记,本次课程主要包括4部分:1) The Problem of Overfitting(过拟合问题)2) Cost Function(成本函数)3) Regularized Linear Regression(线性回归的正则化)4) Regularized Logistic Regression(逻辑回归的正则化)以下是每一部分的转载 2016-03-05 16:57:03 · 973 阅读 · 0 评论 -
NMF非负矩阵分解以及更新迭代公式
NMF:非负矩阵因式分解。 NMF一直被认为是对多维数据分解的一个很有效的方法,包括在聚类和推荐系统中应用等。NMF矩阵算法介绍:给定一个非负矩阵V,我们可以找到2个非负分解因子矩阵W,H.其中,W称为权重矩阵,H称为特征矩阵。公式如下:当n维数据向量集放置在n*m的矩阵V中,其中m是数据集的大小。V分解的的权重矩阵W:n*r;V分解的特征矩阵H: r*m; 通常r小于n,m。r表转载 2016-01-16 17:26:40 · 14283 阅读 · 6 评论