- 博客(284)
- 资源 (1)
- 收藏
- 关注
原创 Machine Learning week 9 quiz: Anomaly Detection
Anomaly Detection5 试题1. For which of the following problems would anomaly detection be a suitable algorithm?Given data from credit card transa
2015-11-27 16:48:51 15580 5
原创 Machine Learning week 8 quiz: programming assignment-K-Means Clustering and PCA
一、ex7.m%% Machine Learning Online Class% Exercise 7 | Principle Component Analysis and K-Means Clustering%% Instructions% ------------%% This file contains code that helps you get started
2015-11-27 15:47:40 7720 2
转载 对线性回归,logistic回归和一般回归的认识
作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一个基本问题,然后引出了线
2015-11-27 11:40:52 1945
转载 主成分分析(Principal components analysis)-最大方差解释
在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样
2015-11-27 11:38:08 1271
转载 混合高斯模型(Mixtures of Gaussians)和EM算法
这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可
2015-11-27 11:36:27 1466
转载 (EM算法)The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果
2015-11-27 11:34:43 1114
转载 K-means聚类算法
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设
2015-11-27 11:32:44 1159
转载 规则化和模型选择(Regularization and model selection)
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络等模
2015-11-27 11:31:22 1108
转载 支持向量机SVM(五)SMO算法
11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for
2015-11-27 11:29:27 1467 1
转载 支持向量机SVM(四)
9 规则化和不可分情况处理(Regularization and the non-separable case)我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张
2015-11-27 11:26:52 1073
转载 支持向量机(三)核函数
7 核函数(Kernels) 考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维,然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中
2015-11-27 11:25:37 1241
转载 支持向量机SVM(二)
6 拉格朗日对偶(Lagrange duality) 先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏导数等于
2015-11-27 11:24:22 1175
转载 支持向量机SVM(一)
1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最小原理出发,然后引出SVM什么的,还有些资料上来就讲分类超平面什么的。这份材料从前几节讲的logi
2015-11-27 11:22:56 1279
原创 Machine Learning week 7 quiz: programming assignment-Support Vector Machines
一、ex6.m%% Machine Learning Online Class% Exercise 6 | Support Vector Machines%% Instructions% ------------% % This file contains code that helps you get started on the% exercise. You wil
2015-11-27 11:17:23 7837
原创 Machine Learning week 8 quiz: Principal Component Analysis
Principal Component Analysis5 试题1. Consider the following 2D dataset:Which of the following figures correspond to possible values that PCA may return for u(1)
2015-11-26 20:21:52 16990 5
原创 Machine Learning week 7 quiz: Unsupervised Learning
Unsupervised Learning5 试题1. For which of the following tasks might K-means clustering be a suitable algorithm? Select all that apply.Given his
2015-11-26 17:24:28 15785 5
原创 Machine Learning week 7 quiz: Support Vector Machines
Support Vector Machines5 试题1. Suppose you have trained an SVM classifier with a Gaussian kernel, and it learned the following decision boundary on the training set:
2015-11-26 15:25:51 16246 5
原创 几个国外Blog
1、Blogger2、Blogspot3、blog.com4、edublogs.org5、blogetery.com6、livejournal.com7、weebly.com8、Jux.com9、blogsome.com10、thoughts.com11、blogdive.com12、Tumblr.com
2015-11-26 14:41:44 3830
原创 Git代码托管平台
1、GitHubhttps://github.com/2、GitLabhttps://about.gitlab.com/3、Bitbuckethttps://bitbucket.org/4、Codinghttps://coding.net/5、CSDN代码托管库https://code.cs
2015-11-26 14:28:40 1255
转载 公海公约
公海公约(1958年4月29日订于日内瓦)[本公约于1962年9月30日生效] 本公约当事各国, 深愿编纂关于公海之国际法规则, 鉴于自1958年2月24日至4月27日在日内瓦举行之联合国海洋法会议通过下列条款,概括宣示国际法上之确定原则, 爱议定条款如下:' 第1条 称“公海”者谓不属领海或一国内水域之海洋所有各部分。 第2条 公海对各国一
2015-11-26 13:34:50 2190
原创 Machine Learning week 6 quiz: Machine Learning System Design
Machine Learning System Design5 试题1. You are working on a spam classification system using regularized logistic regression. "Spam" is a positive class (y = 1) and "
2015-11-26 13:30:03 25352 3
原创 Machine Learning week 6 quiz: programming assignment-Regularized Linear Regression and Bias/Variance
一、ex5.m%% Machine Learning Online Class% Exercise 5 | Regularized Linear Regression and Bias-Variance%% Instructions% ------------% % This file contains code that helps you get started on
2015-11-26 13:26:49 7092
原创 git push时提示:更新被拒绝,因为您当前分支的最新提交落后于其对应的远程分支
在对本地库中的文件执行修改后,想git push推送到远程库中,结果在git push的时候提示出错:! [rejected] master -> master (non-fast-forward)error: 无法推送一些引用到 'git@github.com:GarfieldEr007/XXXX.git'提示:更新被拒绝,因为您当前分支的最新提交落后于其对应的远程分支
2015-11-25 19:20:19 22706
原创 Matlab注释多行和取消多行注释的快捷键
matlab里注释符号是%,只是单行注释,可是没有多行注释符号,就像C/C++/Java中都有多行注释符号/* */。如果利用单行注释的方式手工注释一段程序会很麻烦,matlab软件自带快捷键支持注释和取消注释多行程序。先选中要进行操作的程序段,然后执行快捷键:注释:Ctrl+/取消注释:Ctrl+T注释换行:Alt+Q上图,编辑器区中间位置就是注释工具栏,支持快
2015-11-25 18:16:57 71373 10
转载 急性子的开源大数据,第 1 部分: Hadoop 教程:Hello World 与 Java、Pig、Hive、Flume、Fuse、Oozie,以及 Sqoop 与 Informix、DB2 和
如何开始使用 Hadoop 和自己喜欢的数据库本文的重点是解释大数据,然后在 Hadoop 中提供简单的工作示例,Hadoop 是在大数据领域的主要开源选手。您会很高兴地听到,Hadoop 并不是 Informix® 或 DB2® 的替代品,但事实上与现有的基础架构配合得很好。Hadoop 家族有多个组件,本文将深入探讨演示各功能的具体代码示例。如果您在自己的 PC 上尝试
2015-11-25 15:29:30 2944
转载 理解Spark的核心RDD
与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。要
2015-11-25 15:25:44 1300
转载 Apache Spark学习:利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。不建议大家使用eclipse开发spark程序和阅读源代码,推荐使用Intellij IDEA,具体参考文章:Apache Spark探秘:
2015-11-25 15:23:52 1761
转载 Spark安装与学习
Spark安装与学习 摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/1 Scala安装 当前,Spark最新版本是0.5,由于我写这篇文档时,版本还是0.4,因此本文下面的所有描述基
2015-11-25 15:20:52 1137
转载 A Scala Tutorial for Java Programmers
A Scala Tutorial for Java ProgrammersEnglishEspañol한국어DeutschBy Michel Schinz and Philipp HallerIntroductionThis document gives a quick introduction to the Scala language andcompiler.
2015-11-25 15:17:54 1479
转载 Spark开发指南Spark Programming Guide
Spark Programming Guide Overview Linking with Spark Initializing Spark Using the Shell Resilient Distributed Datasets (RDDs) Parallelized Collections Ext
2015-11-25 15:14:24 2123 1
转载 Spark随谈
Spark随谈(一)---总体架构Spark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。系列文章见: Spark随谈 http://www.linuxidc.com/Linux/2013-08/88592.htmSpark之依赖(1)Map Re
2015-11-25 15:11:20 2339
转载 Hadoop Streaming
Hadoop StreamingHadoop Streaming Hadoop Streaming Streaming工作原理 将文件打包到提交的作业中 Streaming选项与用法 只使用Mapper的作业 为作业指定其他插件 Hadoop Streaming中的大文件和档案
2015-11-25 14:57:47 1139
转载 Hadoop Map/Reduce教程
Hadoop Map/Reduce教程 目的 先决条件 概述 输入与输出 例子:WordCount v1.0 源代码 用法 解释 Map/Reduce - 用户界面 核心功能描述 Mapper Reducer
2015-11-25 14:56:09 1671
转载 Hadoop Shell命令
Hadoop Shell命令FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir
2015-11-25 14:47:31 979
转载 Hadoop命令手册
Hadoop命令手册 概述 常规选项 用户命令 archive distcp fs fsck jar job pipes version CLASSNAME 管理命令
2015-11-25 14:46:09 1040
原创 Machine Learning week 5 quiz: programming assignment-Multi-Neural Network Learning
一、ex4.m%% Machine Learning Online Class - Exercise 4 Neural Network Learning% Instructions% ------------% % This file contains code that helps you get started on the% linear exercise. You
2015-11-25 13:16:41 6966
原创 GitHub添加SSH keys报错Key is invalid. It must begin with 'ssh-ed25519', 'ssh-rsa', 'ssh-dss', 'ecdsa-sha
在GitHub上Add SSH key的时候报错:Key is invalid. It must begin with 'ssh-ed25519', 'ssh-rsa', 'ssh-dss', 'ecdsa-sha。。。(红字,在GitHub页面上方显示)原因:复制id_rsa.pub中内容的时候格式改变,导致粘贴到GitHub上因为格式错误而报错。解决:复制id_rsa.pub中ke
2015-11-24 19:50:49 26839 6
原创 Hadoop+eclipse运行MapReduce程序
前面,我们已经通过eclipse下安装Hadoop的插件配置好了基于Hadoop+eclipse的MapReduce开发环境。现在,我们在这个Hadoop+eclipse环境下运行MapReduce程序。一、新建MapReduce项目【 File】—>【new】->【Project】,选择【Map/Reduce Project】,单击下一步,设置项目名称为WordCount,确定。
2015-11-24 12:04:35 1500
原创 Hadoop自带WordCount.java程序
位置:{Hadoop_HOME}\hadoop-0.20.1\src\examples\org\apache\hadoop\examples\WordCount.javaHadoop自带WordCount程序:package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTok
2015-11-24 11:07:47 3529
原创 Machine Learning week 6 quiz: Advice for Applying Machine Learning
Advice for Applying Machine Learning5 试题1. You train a learning algorithm, and find that it has unacceptably high error on the test set. You plot the learning curve
2015-11-24 09:59:56 8120 1
搜索引擎以及网上免费学术资源的检索
2015-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人