Machine Learning
zhihua_bupt
极客码农,Coding the life,Coding the world!!!
展开
-
机器学习入门指南
转自果壳的机器学习小组_好东西传送门用户:http://www.guokr.com/post/636133/转自http://ml.memect.com/article/machine-learning-guide.html读了白马 的 机器学习入门者学习指南,感觉写得非常到位。在不少论坛上,包括知乎,Quora上都看到类似的问题,而解答通常就是推荐几门课、几本书。虽然也都是好东西转载 2015-04-07 00:32:53 · 1844 阅读 · 0 评论 -
深度学习——机器学习的新浪潮
注明:转载自博客http://blog.csdn.net/datoubo/article/details/8577366转载 2016-01-27 16:41:00 · 2052 阅读 · 2 评论 -
卷积神经网络Lenet-5实现
原文地址:http://blog.csdn.net/hjimce/article/details/47323463作者:hjimce卷积神经网络算法是n年前就有的算法,只是近年来因为深度学习相关算法为多层网络的训练提供了新方法,然后现在电脑的计算能力已非当年的那种计算水平,同时现在的训练数据很多,于是神经网络的相关算法又重新火了起来,因此卷积神经网络就又活了起来,再开始前,我们需要转载 2016-01-29 10:16:15 · 37859 阅读 · 6 评论 -
机器学习实战笔记——KNN算法
一、KNN算法描述KNN(K-nearest neighbor algorithm),也就是K近邻算法,顾名思义,可以形象的理解为求K个最近的邻居。当K=1时,KNN算法就成了最近邻算法,即寻找最近的那个邻居。所谓K近邻算法,就是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(就是上面提到的K个邻居),如果这K个实例的多数属于某个类,就将该输入实例分类到这个原创 2016-01-15 10:01:20 · 3409 阅读 · 0 评论 -
"阿里巴巴"杯北邮数据挖掘竞赛(一)
一、赛题介绍在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。 本届赛题的任务就是根据用户近200天在天猫的行为日志,建立用户的品牌偏好,并对用户的性别和年龄进行分类。 根据性别和年龄将用户分为了12类,建议参赛者考虑类别不平衡问题(偏斜不严重)。比赛共约700MB的数据量,按6:2:2的比例分配与训练集、测试集1、测试集2。原创 2016-03-04 16:58:58 · 2905 阅读 · 1 评论 -
机器学习实战笔记——利用SVD简化数据
SVD(Singular Value Decomposition)奇异值分解,可以用来简化数据,去除噪声,提高算法的结果。一、SVD与推荐系统下图由餐馆的菜和品菜师对这些菜的意见组成,品菜师可以采用1到5之间的任意一个整数来对菜评级,如果品菜师没有尝过某道菜,则评级为0建立一个新文件svdRec.py并加入如下代码:def loadExData(): return[原创 2016-01-11 11:07:53 · 5328 阅读 · 8 评论 -
机器学习实战笔记——微软小冰的读心术与决策树
最近微信朋友圈很多人在转发的一个游戏叫做“微软小冰读心术”,游戏的规则很简单:参与游戏的一方在脑海里想好一个人的名字,然后微软小冰会问你15个问题,问题的答案只能用“是”、“不是”或者“不知道”回答。微软小冰通过你的回答进行推断分解,逐步缩小待猜测人名的范围,决策树的工作原理与这些问题类似,用户输入一系列数据,然后会给出游戏的答案。一、决策树原创 2016-01-23 22:39:00 · 11891 阅读 · 0 评论 -
美团机器学习InAction系列—实例详解机器学习如何解决问题
原文 http://tech.meituan.com/mt-mlinaction-how-to-ml.html前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工 业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上转载 2016-05-11 14:55:29 · 5256 阅读 · 0 评论 -
稀疏表示字典的显示(MATLAB实现代码)
本文主要是实现论文--基于稀疏表示的图像超分辨率《Image Super-Resolution Via Sparse Representation》中的Figure2,通过对100000个高分辨率和低分辨率图像块训练得到的高分辨率图像块字典,字典原子总数为512,原子大小为9X9方法一:clc;clear all;% load dictionaryload('Diction原创 2016-01-05 19:34:14 · 30880 阅读 · 36 评论 -
MATLAB计算矩阵间的欧式距离(不用循环!)
MATLAB编程题题目描述:从一个NxM的矩阵C中找出与1xM的矩阵P欧氏距离最小的某一行row,要求不能用循环!!!输入:矩阵C(NxM)、矩阵P(1xM)输出:row解题思路:程序:function[row]=matchest(C,P)[N,M]=size(C);Distance=zeros([1,N]);Distance=sqrt原创 2016-05-28 12:59:55 · 57281 阅读 · 5 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料
机器学习(Machine Learning)&深度学习(Deep Learning)资料機器學習、深度學習方面不錯的資料,轉載。原作:https://github.com/ty4z2008/Qix/blob/master/dl.md原作作者會不斷更新,本文更新至2014-12-21《Brief History of Mac转载 2016-05-07 11:13:55 · 1505 阅读 · 0 评论 -
数值最优化:理解L-BFGS
数值最优化:理解L-BFGS数值最优化是很多机器学习中的核心,一旦你已经选定了模型和数据集,那么就需要数值最优化方法去最小化多元函数 f(x)f(x),从而估计出模型的参数:x∗=argminxf(x)x∗=argminxf(x)通过求解上面的优化问题,得到的 x∗x∗就是模型最优的参数 。本文,我重点阐述L-BFGS算法求解无约束优化问题的过程,这也是目前解翻译 2016-05-07 11:35:58 · 5049 阅读 · 0 评论 -
基于深度学习的图像去噪(论文总结)
2015深度学习、自编码器、低照度图像增强Lore, Kin Gwn, Adedotun Akintayo, and Soumik Sarkar. "LLNet: A Deep Autoencoder Approach to Natural Low-light Image Enhancement." arXiv preprint arXiv:1511.03995 (2015).利用深度原创 2016-01-24 00:24:47 · 29400 阅读 · 1 评论 -
机器学习相关职位走向
一、机器学习相关的公司分析1、大的有师傅的公司这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带着学习,进步会比较快。但是三个公司的特点也有所不同。(1)百度百度是我认为在业务和技术之间匹配的最好,并且从基础到应用搭配的最好的公司。机器学习方面的能力对于百度的广告,搜索,移动搜索转载 2016-01-06 15:00:58 · 1719 阅读 · 0 评论 -
机器学习——深度学习(Deep Learning)
Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得。Key Words:有监督学习与无监督学习,分类、回归,密度估计、聚类,深度学习,Sparse DBN,1. 有监督学习和无监督学习给定一组数据(inpu转载 2016-01-22 15:04:46 · 3399 阅读 · 1 评论 -
HOG+SVM
#include "cv.h"#include "highgui.h"#include "stdafx.h"#include #include #include #include #include using namespace cv;using namespace std;int main(int argc, char** argv) { vector img_转载 2015-09-16 15:33:39 · 829 阅读 · 0 评论 -
MatLab2012b/MatLab2013b 分类器大全(svm,knn,随机森林等)
train_data是训练特征数据, train_label是分类标签。Predict_label是预测的标签。MatLab训练数据, 得到语义标签向量 Scores(概率输出)。1.逻辑回归(多项式MultiNomial logistic Regression)Factor = mnrfit(train_data, train_label);Scores = mnrv转载 2015-10-23 16:44:49 · 862 阅读 · 0 评论 -
K近邻分类算法实现 in Python
K近邻(KNN):分类算法* KNN是non-parametric分类器(不做分布形式的假设,直接从数据估计概率密度),是memory-based learning.* KNN不适用于高维数据(curse of dimension)* Machine Learning的Python库很多,比如mlpy(更多packages),这里实现只是为了掌握方法* MA转载 2015-10-23 16:48:14 · 679 阅读 · 0 评论 -
Histogram of Oriented Gridients(HOG) 方向梯度直方图
Histogram of Oriented Gridients,缩写为HOG,是目前计算机视觉、模式识别领域很常用的一种描述图像局部纹理的特征。这个特征名字起的也很直白,就是说先计算图片某一区域中不同方向上梯度的值,然后进行累积,得到直方图,这个直方图呢,就可以代表这块区域了,也就是作为特征,可以输入到分类器里面了。那么,接下来介绍一下HOG的具体原理和计算方法,以及一些引申。 1转载 2015-09-18 16:15:23 · 957 阅读 · 0 评论 -
matlab实现k-means聚类
聚类算法,不是分类算法。分类算法是给一个数据,然后判断这个数据属于已分好的类中的具体哪一类。聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类。这里的k-means聚类,是事先给出原始数据所含的类数,然后将含有相似特征的数据聚为一个类中。所有资料中还是Andrew Ng介绍的明白。首先给出原始数据{x1,x2,...,xn},这些数据没有被标记的。初始转载 2015-10-24 14:04:37 · 3892 阅读 · 2 评论 -
Python机器学习库scikit-learn实践
Python机器学习库scikit-learn实践 一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘。随着机器学习社区的发展和实践验证,这群脱颖而转载 2015-10-24 14:51:17 · 795 阅读 · 0 评论 -
LBP纹理特征
局部二进制模式(Local binary patterns,LBP)最早是作为一种有有效的纹理描述算子提出的,由于其对图像局部纹理特征的卓越描绘能力而获得了非常广泛的应用。LBP特征具有很强的分类能力(Highly Discriminative)、较高的计算效率并且对于单调的灰度变化具有不变性。LBP方法在1994年首先由T. Ojala, M.Pietikäinen, 和 D. Harwoo原创 2015-09-16 22:46:34 · 8271 阅读 · 5 评论 -
Python实现K-means聚类
kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。kmeans算法步骤:1 随机选取k个中心点2 遍历所有数据,将每个数据划分到最近的中心点中3 计算每个聚类的平均值,并作为新的中心点4 重复2-3,直到这k个中线点不再变原创 2015-11-21 17:19:31 · 2985 阅读 · 0 评论 -
机器学习实战笔记——利用KNN算法改进约会网站的配对效果
一、案例背景我的朋友海伦一直使用在线约会网站寻找合适自己的约会对象。尽管约会网站会推荐不同的人选,但她并不是喜欢每一个人。经过一番总结,她发现曾交往过三种类型的人:(1)不喜欢的人;(2)魅力一般的人;(3)极具魅力的人;尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归入恰当的分类,她觉得可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为伴原创 2016-01-17 12:57:55 · 6591 阅读 · 4 评论 -
机器学习实战笔记——基于KNN算法的手写识别系统
利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示:首先,我们需要将图像格式化处理为一个向量,把一个32X32的二进制图像矩阵通过img2vector()函数转换为1X1024的向量:def img2vector(filename): retu原创 2016-01-17 14:16:50 · 4653 阅读 · 2 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2016-01-05 11:45:44 · 775 阅读 · 0 评论 -
L2范数归一化
结论:L2范数归一化就是向量中每个元素除以向量的L2范数原创 2016-05-08 11:17:53 · 39859 阅读 · 1 评论