自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

GarfieldEr007的专栏

勤奋治学 深度思考 静心钻研 先苦后甜

  • 博客(284)
  • 资源 (1)
  • 收藏
  • 关注

原创 Machine Learning week 9 quiz: Anomaly Detection

Anomaly Detection5 试题1. For which of the following problems would anomaly detection be a suitable algorithm?Given data from credit card transa

2015-11-27 16:48:51 15580 5

原创 Machine Learning week 8 quiz: programming assignment-K-Means Clustering and PCA

一、ex7.m%% Machine Learning Online Class% Exercise 7 | Principle Component Analysis and K-Means Clustering%% Instructions% ------------%% This file contains code that helps you get started

2015-11-27 15:47:40 7720 2

转载 对线性回归,logistic回归和一般回归的认识

作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要      本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。     讲义最初介绍了一个基本问题,然后引出了线

2015-11-27 11:40:52 1945

转载 主成分分析(Principal components analysis)-最大方差解释

在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题     真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样

2015-11-27 11:38:08 1271

转载 混合高斯模型(Mixtures of Gaussians)和EM算法

这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。      与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可

2015-11-27 11:36:27 1466

转载 (EM算法)The EM Algorithm

EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式      回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果

2015-11-27 11:34:43 1114

转载 K-means聚类算法

K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。     聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设

2015-11-27 11:32:44 1159

转载 规则化和模型选择(Regularization and model selection)

1 问题     模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?     还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络等模

2015-11-27 11:31:22 1108

转载 支持向量机SVM(五)SMO算法

11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for

2015-11-27 11:29:27 1467 1

转载 支持向量机SVM(四)

9 规则化和不可分情况处理(Regularization and the non-separable case)我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张

2015-11-27 11:26:52 1073

转载 支持向量机(三)核函数

7 核函数(Kernels) 考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维,然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中

2015-11-27 11:25:37 1241

转载 支持向量机SVM(二)

6 拉格朗日对偶(Lagrange duality)     先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题:             目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为            L是等式约束的个数。     然后分别对w和求偏导,使得偏导数等于

2015-11-27 11:24:22 1175

转载 支持向量机SVM(一)

1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最小原理出发,然后引出SVM什么的,还有些资料上来就讲分类超平面什么的。这份材料从前几节讲的logi

2015-11-27 11:22:56 1279

原创 Machine Learning week 7 quiz: programming assignment-Support Vector Machines

一、ex6.m%% Machine Learning Online Class% Exercise 6 | Support Vector Machines%% Instructions% ------------% % This file contains code that helps you get started on the% exercise. You wil

2015-11-27 11:17:23 7837

原创 Machine Learning week 8 quiz: Principal Component Analysis

Principal Component Analysis5 试题1. Consider the following 2D dataset:Which of the following figures correspond to possible values that PCA may return for u(1)

2015-11-26 20:21:52 16990 5

原创 Machine Learning week 7 quiz: Unsupervised Learning

Unsupervised Learning5 试题1. For which of the following tasks might K-means clustering be a suitable algorithm? Select all that apply.Given his

2015-11-26 17:24:28 15785 5

原创 Machine Learning week 7 quiz: Support Vector Machines

Support Vector Machines5 试题1. Suppose you have trained an SVM classifier with a Gaussian kernel, and it learned the following decision boundary on the training set:

2015-11-26 15:25:51 16246 5

原创 几个国外Blog

1、Blogger2、Blogspot3、blog.com4、edublogs.org5、blogetery.com6、livejournal.com7、weebly.com8、Jux.com9、blogsome.com10、thoughts.com11、blogdive.com12、Tumblr.com

2015-11-26 14:41:44 3829

原创 Git代码托管平台

1、GitHubhttps://github.com/2、GitLabhttps://about.gitlab.com/3、Bitbuckethttps://bitbucket.org/4、Codinghttps://coding.net/5、CSDN代码托管库https://code.cs

2015-11-26 14:28:40 1255

转载 公海公约

公海公约(1958年4月29日订于日内瓦)[本公约于1962年9月30日生效]  本公约当事各国,  深愿编纂关于公海之国际法规则,  鉴于自1958年2月24日至4月27日在日内瓦举行之联合国海洋法会议通过下列条款,概括宣示国际法上之确定原则,  爱议定条款如下:'  第1条  称“公海”者谓不属领海或一国内水域之海洋所有各部分。  第2条  公海对各国一

2015-11-26 13:34:50 2190

原创 Machine Learning week 6 quiz: Machine Learning System Design

Machine Learning System Design5 试题1. You are working on a spam classification system using regularized logistic regression. "Spam" is a positive class (y = 1) and "

2015-11-26 13:30:03 25352 3

原创 Machine Learning week 6 quiz: programming assignment-Regularized Linear Regression and Bias/Variance

一、ex5.m%% Machine Learning Online Class% Exercise 5 | Regularized Linear Regression and Bias-Variance%% Instructions% ------------% % This file contains code that helps you get started on

2015-11-26 13:26:49 7092

原创 git push时提示:更新被拒绝,因为您当前分支的最新提交落后于其对应的远程分支

在对本地库中的文件执行修改后,想git push推送到远程库中,结果在git push的时候提示出错:! [rejected]        master -> master (non-fast-forward)error: 无法推送一些引用到 'git@github.com:GarfieldEr007/XXXX.git'提示:更新被拒绝,因为您当前分支的最新提交落后于其对应的远程分支

2015-11-25 19:20:19 22706

原创 Matlab注释多行和取消多行注释的快捷键

matlab里注释符号是%,只是单行注释,可是没有多行注释符号,就像C/C++/Java中都有多行注释符号/*  */。如果利用单行注释的方式手工注释一段程序会很麻烦,matlab软件自带快捷键支持注释和取消注释多行程序。先选中要进行操作的程序段,然后执行快捷键:注释:Ctrl+/取消注释:Ctrl+T注释换行:Alt+Q上图,编辑器区中间位置就是注释工具栏,支持快

2015-11-25 18:16:57 71363 10

转载 急性子的开源​​大数据,第 1 部分: Hadoop 教程:Hello World 与 Java、Pig、Hive、Flume、Fuse、Oozie,以及 Sqoop 与 Informix、DB2 和

如何开始使用 Hadoop 和自己喜欢的数据库本文的重点是解释大数据,然后在 Hadoop 中提供简单的工作示例,Hadoop 是在大数据领域的主要开源选手。您会很高兴地听到,Hadoop 并不是 Informix® 或 DB2® 的替代品,但事实上与现有的基础架构配合得很好。Hadoop 家族有多个组件,本文将深入探讨演示各功能的具体代码示例。如果您在自己的 PC 上尝试

2015-11-25 15:29:30 2944

转载 理解Spark的核心RDD

与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。要

2015-11-25 15:25:44 1300

转载 Apache Spark学习:利用Eclipse构建Spark集成开发环境

前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。不建议大家使用eclipse开发spark程序和阅读源代码,推荐使用Intellij IDEA,具体参考文章:Apache Spark探秘:

2015-11-25 15:23:52 1761

转载 Spark安装与学习

Spark安装与学习      摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/1 Scala安装       当前,Spark最新版本是0.5,由于我写这篇文档时,版本还是0.4,因此本文下面的所有描述基

2015-11-25 15:20:52 1137

转载 A Scala Tutorial for Java Programmers

A Scala Tutorial for Java ProgrammersEnglishEspañol한국어DeutschBy Michel Schinz and Philipp HallerIntroductionThis document gives a quick introduction to the Scala language andcompiler.

2015-11-25 15:17:54 1479

转载 Spark开发指南Spark Programming Guide

Spark Programming Guide    Overview    Linking with Spark    Initializing Spark        Using the Shell    Resilient Distributed Datasets (RDDs)        Parallelized Collections        Ext

2015-11-25 15:14:24 2123 1

转载 Spark随谈

Spark随谈(一)---总体架构Spark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。系列文章见: Spark随谈 http://www.linuxidc.com/Linux/2013-08/88592.htmSpark之依赖(1)Map Re

2015-11-25 15:11:20 2339

转载 Hadoop Streaming

Hadoop StreamingHadoop Streaming    Hadoop Streaming    Streaming工作原理    将文件打包到提交的作业中    Streaming选项与用法        只使用Mapper的作业        为作业指定其他插件        Hadoop Streaming中的大文件和档案      

2015-11-25 14:57:47 1139

转载 Hadoop Map/Reduce教程

Hadoop Map/Reduce教程    目的    先决条件    概述    输入与输出    例子:WordCount v1.0        源代码        用法        解释    Map/Reduce - 用户界面        核心功能描述            Mapper            Reducer  

2015-11-25 14:56:09 1671

转载 Hadoop Shell命令

Hadoop Shell命令FS Shell    cat    chgrp    chmod    chown    copyFromLocal    copyToLocal    cp    du    dus    expunge    get    getmerge    ls    lsr    mkdir 

2015-11-25 14:47:31 979

转载 Hadoop命令手册

Hadoop命令手册    概述        常规选项    用户命令        archive        distcp        fs        fsck        jar        job        pipes        version        CLASSNAME     管理命令 

2015-11-25 14:46:09 1040

原创 Machine Learning week 5 quiz: programming assignment-Multi-Neural Network Learning

一、ex4.m%% Machine Learning Online Class - Exercise 4 Neural Network Learning% Instructions% ------------% % This file contains code that helps you get started on the% linear exercise. You

2015-11-25 13:16:41 6966

原创 GitHub添加SSH keys报错Key is invalid. It must begin with 'ssh-ed25519', 'ssh-rsa', 'ssh-dss', 'ecdsa-sha

在GitHub上Add SSH key的时候报错:Key is invalid. It must begin with 'ssh-ed25519', 'ssh-rsa', 'ssh-dss', 'ecdsa-sha。。。(红字,在GitHub页面上方显示)原因:复制id_rsa.pub中内容的时候格式改变,导致粘贴到GitHub上因为格式错误而报错。解决:复制id_rsa.pub中ke

2015-11-24 19:50:49 26837 6

原创 Hadoop+eclipse运行MapReduce程序

前面,我们已经通过eclipse下安装Hadoop的插件配置好了基于Hadoop+eclipse的MapReduce开发环境。现在,我们在这个Hadoop+eclipse环境下运行MapReduce程序。一、新建MapReduce项目【 File】—>【new】->【Project】,选择【Map/Reduce Project】,单击下一步,设置项目名称为WordCount,确定。

2015-11-24 12:04:35 1500

原创 Hadoop自带WordCount.java程序

位置:{Hadoop_HOME}\hadoop-0.20.1\src\examples\org\apache\hadoop\examples\WordCount.javaHadoop自带WordCount程序:package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTok

2015-11-24 11:07:47 3529

原创 Machine Learning week 6 quiz: Advice for Applying Machine Learning

Advice for Applying Machine Learning5 试题1. You train a learning algorithm, and find that it has unacceptably high error on the test set. You plot the learning curve

2015-11-24 09:59:56 8120 1

搜索引擎以及网上免费学术资源的检索

介绍了一下搜索引擎的工作原理和组成部分,以Google和百度为代表介绍了搜索引擎的高级检索功能,以及搜索引擎非常强大的最常用的八条高级检索命令,最后对网上免费学术资源网站进行了介绍。

2015-09-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除