Machine learning
Felven
我就不告诉你,我就不告诉你(有节奏)
展开
-
斯坦福机器学习公开课笔记(十四)--大规模机器学习
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、learning with large datasets(大数据学习)前面在机器学习设计这一讲中已经提到过数据量的重要性,要记住的是这句话:It is not who has the best algorithm that wins. It is原创 2013-06-25 16:24:31 · 3858 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(十五)--[应用]照片OCR技术
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、problem description and pipeline(问题描述和流水线)OCR是optical character recognition的缩写,翻译过来就是光学字符辨识。照片中的OCR技术其实就是识别中照片中存在的字符,例如下面这幅图:原创 2013-06-27 11:29:15 · 4889 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(八)--机器学习系统设计
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、prioritizing what to work on:spam classification example(垃圾邮件分类系统)前面学到的都是一些理论知识外加实践过程中的诊断方法,这一讲是针对一个实际问题进行分析-垃圾邮件分类系统。相信大部分用过e原创 2013-06-09 16:23:58 · 2757 阅读 · 1 评论 -
斯坦福机器学习公开课笔记(五)--神经网络的表示
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、non-linear hypotheses(非线性假设)前面提到的都是回归方面的东西,现在要开始新的一个专题-神经网络。自然,脑中冒出一个问题,为什么要引入神经网络?还是考虑房屋售价预测问题,我们可以通过引入多个特征让预测更准确,但我们知道原创 2013-05-31 17:27:19 · 3309 阅读 · 0 评论 -
用matlab实现神经网络识别数字
Andrew Ng机器学习第四周的编程练习是用matlab实现一个神经网络对一幅图中的数字进行识别,有待识别的数字全集如下:其中每一个数字都是一个大小为20*20像素的图像,如果把每个像素作为一个输入单元,那有400个输入。考虑到神经网络还需要增加一个额外输入单元表示偏差,一共有401个输入单元。题目中给的训练数据X是一个5000*400的向量。题目中要求包含一个25个节点原创 2013-05-20 10:50:15 · 16936 阅读 · 6 评论 -
北理工机器学习课程Project题目汇总
Project: 1. Inferring Networks of Diffusion and InfluenceData:Download the dataat http://snap.stanford.edu/netinf/#data.Data contains information about the connectivity原创 2013-04-18 09:22:37 · 11487 阅读 · 3 评论 -
2013年 机器学习备注【聚类专题】
2月27日,机器学习第一节课,下面是这节课中几个值得注意的要点聚类(clustering)1、ground truth :真实值,以后数据的真实值用这个词语表达2、K-means=EM, 聚类中k均值算法其实就是一个EM算法,其中第二步把数据点归并到相应的中心点为E,根据归并后的数据点进行计算重新产生新的中心点为M,通过不断迭代直到不再改变。K均值也是基于高斯混合模型GMM的k均值原创 2013-02-27 22:24:55 · 2889 阅读 · 0 评论 -
【word2vec】compute-accuracy.c源码
// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file except in compliance with the License.// You转载 2013-09-16 16:21:53 · 2946 阅读 · 0 评论 -
【word2vec】word2vec.c源码
// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file except in compliance with the License.// You转载 2013-09-13 10:54:55 · 4050 阅读 · 7 评论 -
【word2vec】distance.c源码
// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file except in compliance with the License.// You转载 2013-09-16 16:31:42 · 2730 阅读 · 0 评论 -
【word2vec】word2phrase.c源码
// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file except in compliance with the License.// You转载 2013-09-16 16:35:29 · 2711 阅读 · 0 评论 -
【word2vec】word-analogy.c源码
// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file except in compliance with the License.// You转载 2013-09-16 16:36:18 · 2738 阅读 · 4 评论 -
使用SVD方法实现电影推荐系统
这学期选了一门名叫《web智能与社会计算》的课,老师最后偷懒,最后的课程project作业直接让我们参加百度的一个电影推荐系统算法大赛,然后以在这个比赛中的成绩作为这门课大作业的成绩。不过,最终的结果并不需要百度官方的评估,只需要我们的截图即可(参看百度云平台),例如下面这个:上面最重要的就是RMSE的数值,数值越小代表偏差越小,百度排行榜就是按值从小到大来排列的,这些人使用的原创 2013-04-19 10:34:34 · 15106 阅读 · 11 评论 -
Stanford Machine Learning:Statement of Accomplishment
This course comes to the end. I got a statement of accomplishment in Chinese Valentine's Day which is also called Double Seventh Festival.In the last video, Professor Andrew Ng said a few words原创 2013-08-14 12:31:35 · 2026 阅读 · 0 评论 -
matlab实现回归分析
在机器学习这门课上,Andrew第一个提到的就是监督学习下面的回归分析,编程作业一也就是用matlab实现回归。主要包括两个方面的内容,计算代价,梯度下降。计算代价可以用下面这几个式子来说明:htheta(x)是预测值,y是真实值,目的就是通过训练参数让预测值和真实值之间的差距最小,目标函数有了,下面就是梯度下降迭代的过程了。这里只有两个参数theta0和the原创 2013-04-28 09:51:15 · 4147 阅读 · 2 评论 -
斯坦福机器学习公开课笔记(十三)--推荐系统
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、problem formulation(问题产生)在平时购物的时候我们都会看到网站把向我们推荐的商品放在醒目位置,其实这就是推荐系统。现在考虑一个电影推荐系统的例子,我们拥有一些用户对于一些电影的评分,如下:从上面可以看到,用户对电影的原创 2013-06-25 11:33:21 · 11453 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(十二)--异常检测
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、problem motivation(问题的产生)先来看一个例子,假设我们要对飞机引擎进行检测,我们知道飞机引擎的性能和很多因素相关,这里我只选择热量和振动强度两个因素,在获取大量正常的数据以后,我们能在二维坐标系中绘制出这两个因素之间的关系,如下图红原创 2013-06-21 16:27:28 · 8602 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(十一)--数据降维
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、motivation 1:data compression(动机1-数据压缩)所谓数据压缩就是对高维数据进行降维,从而减少数据存储容量。至于要进行数据压缩的原因,显然是数据量太大造成的,先看下面这个例子:从上图中可以看到,我们对平面上二原创 2013-06-20 16:19:50 · 4450 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(十)--聚类
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、unsupervised learning introduction(无监督学习简介)之前提到的是机器学习两大分支中的一个--有监督学习,现在要该开始学习另一个分支--无监督学习。何为无监督学习?无监督学习和有监督学习又有什么区别?我觉得可以这样说,在原创 2013-06-18 17:19:18 · 2916 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(九)--支持向量机
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、optimization objective(优化目标)前面我们提到过逻辑回归的模型,如下所示:可以看到,当真实值y为1时,我们希望预测值h(x)尽可能接近1,也就是确保z>>0,当y为0时,我们希望h(x)接近0,也就是确保z。其中针原创 2013-06-14 17:30:45 · 3594 阅读 · 5 评论 -
斯坦福机器学习公开课笔记(七)--对机器学习应用的一些建议
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、deciding what to try next(确定接下来做什么)前面已经介绍了机器学习的一些方法,知道这些方法的具体过程显然是不够的,关键是学会如何去用,正所谓掌握知识的最佳途径是付诸于实践。考虑最早提出的房屋售价预测问题,假设你已经使用规格化的原创 2013-06-06 17:13:46 · 2216 阅读 · 3 评论 -
斯坦福机器学习公开课笔记(六)--神经网络的学习
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、cost function(代价函数)上一讲的最后引入了多分类问题,多分类问题与二元分类问题的区别就在于输出单元是多个,用图总结如下:同时在前面我们也已经知道逻辑回归的代价函数如下:前半部分代表真实值与假设值的差值,后半原创 2013-06-04 09:29:11 · 2589 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(四)--规格化
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、the problem of overfitting(过拟合的问题)回到我们最早提到的预测房屋价格与房屋面积关系的线性回归问题,最简单的模型是线性关系,但是在很多情况下线性关系是不适用的,需要引入二阶三阶等。不过在引入高阶后又存在新的问题,样本数据能很原创 2013-05-31 15:00:53 · 2810 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(三)--逻辑回归
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、classification(分类)考虑一个预测病人肿瘤的系统,该系统能判断病人的肿瘤是良性还是恶性。我们可以用一个值y∈{0,1}来表示预测结果,当y为0时表明是良性的,y为1时表明是恶性的。我们收集了8个体现肿瘤的大小和性质的样本数据,在平面上描出原创 2013-05-28 17:21:34 · 3547 阅读 · 4 评论 -
斯坦福机器学习公开课笔记(二)--多变量线性回归
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、multiple features(多特征)在第一次课中我们假设房屋的价格仅和房屋的面积相关,显然这与实际情况不符,为此,我们需要考虑更多的影响因素,也就是这里说的房屋的特征。比如,我们可以加入房屋中卧室的数量,房屋所在的楼层数和房屋的年龄这几个因素:原创 2013-05-24 17:23:55 · 3492 阅读 · 0 评论 -
斯坦福机器学习公开课笔记(一)--单变量线性回归
公开课地址:https://class.coursera.org/ml-003/class/index 授课老师:Andrew Ng1、model representation(建立模型)考虑一个问题,如果给定一些房屋售价和房屋面积的数据,现在要预测给定其他面积时的房屋售价,那该怎么办?其实这是一个线性回归问题,给定的数据作为训练样本,用其训练得到一个表示售价和面积关系的模型(其实是一原创 2013-05-24 12:37:41 · 5486 阅读 · 1 评论 -
Introduction to Recommender Systems-Programming Assignment 1
OverviewThis assignment will explore non-personalized recommendations. You will be given a program stub and a data set in .csv format. You will use these to write a program that makes basic, non-p原创 2013-09-17 13:53:50 · 1989 阅读 · 4 评论