机器学习
文章平均质量分 51
messiran10
这个作者很懒,什么都没留下…
展开
-
VS2010+Python环境配置
最近开始看《机器学习实战》这本书,这本书里面是用python实现了一些基本的算法,因此,首先需要搭建好python的开发环境。一.相关版本我的电脑:win8 64位python版本:python-2.7.5.amd64 Numpy函数库版本:numpy-MKL-1.8.0.win-amd64-py2.7python插件版本:numpy-MKL-1.8.0.win-amd64-p原创 2015-02-09 19:18:42 · 4567 阅读 · 0 评论 -
【机器学习算法】之SVM
一.算法介绍SVM分为线性SVM和非线性SVM,非线性SVM实际上也只是通过核函数变换到特征空间。这里我主要针对线性SVM进行说明。 模型:线性SVM主要用于解决线性可分的问题,所建立的模型实际上就是f(x)=sign(wx+b)。这和感知机所建立的模型实际上是一致的,即SVM希望学习到线性空间的一个超平面,在这个超平面两侧的数据点有着不同的类别。之前说过的logistic回归模型实际上也是希望学原创 2015-12-01 10:49:11 · 537 阅读 · 0 评论 -
【Kaggle练习赛】之Digit Recognizer
Kaggle是国外的一项数据挖掘赛事,近期阿里并没有开办赛事,所以准备先拿Kaggle的练习赛来热热身,顺便学习一下scikit-learn这个开源库的使用。Kaggle入门可以参见 http://blog.csdn.net/u012162613/article/details/41929171 一.问题描述The goal in this competition is to take an im原创 2016-01-15 11:32:11 · 732 阅读 · 0 评论 -
Vs2013安装python插件
最近给电脑重装了一次系统,并且改为使用VS2013。重装系统后还没有去安装python的诸多环境,今天花了一点时间搭建好了python的开发环境,记录相关工具包的下载路径如下:1.安装python 2.7.11https://www.python.org/downloads/2.安装numpyhttp://sourceforge.net/projects/numpy/files原创 2016-01-11 15:42:16 · 5508 阅读 · 0 评论 -
【机器学习算法】之Adaboost
一.算法介绍《统计学习方法》对adaboost算法进行了相当精彩的介绍,尤其是后面证明adaboost算法是前向分布加法算法的特例,这就将adaboost算法拉入到 统计学习=模型+策略+算法这一框架中。 1.模型: 加法模型: Adaboost算法期望用一系列不同权重的基函数的和来构成最终的分类器。 2.策略 采用指数损失函数 3.算法 采用逐层逼近的算法,每次寻求一个a原创 2016-01-11 16:26:59 · 634 阅读 · 0 评论 -
【机器学习算法】之线性回归分析
一.算法介绍1.模型:y=xw 线性回归建立的模型非常简单,就是简单的线性组合。 2. 策略 使用平方损失函数: 3.算法 直接改写成矩阵相乘形式,即可得到闭式解。 上述是最基本的线性回归的用法,但是在实际应用中,从最基本的线性回归中还可以引申出多种形式。局部加权线性回归: 参见博客 http://blog.csdn.net/silence1214/article/detail原创 2016-01-12 17:16:30 · 888 阅读 · 0 评论 -
【机器学习算法】之K-means聚类
一.算法介绍1.模型 K-means算法并没有显式的数学模型,算法的目的是从数据集中得到k个中心点,每个中心点及其周围的点形成一个聚簇。K-means是一种无监督的学习模型。K-means的学习目标如下图所示: 2.策略 K-mean算法采用的损失函数是平方损失函数。每个簇的点距离中心的平方距离之和构成损失函数。3.算法 首先给出原始数据{x1,x2,…,xn},这些数据没有被标记的。初始化原创 2016-01-14 21:43:06 · 1061 阅读 · 0 评论 -
【机器学习算法】之回归树
一.算法介绍回归树指的是用来解决回归问题的树模型,之前介绍过的决策树可以视为一种特殊的回归树。 1.模型 回归树是对数据空间进行线性切分,得到多个Rm。每个Rm代表着一块区域,这块区域的样本点的输出值设为一个常数。 2.策略 为了针对训练数据求解到一个合适的回归树,关键问题有两个:如何划分数据空间 每个数据空间的输出值设为多少。回归树模型采用的损失函数是平方误差,策略即是: 最小化3.算法原创 2016-01-13 16:57:05 · 1249 阅读 · 0 评论 -
【机器学习算法】之朴素贝叶斯的实现
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:决策树类的实现程序:from numpy import *def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],原创 2016-03-05 11:22:51 · 533 阅读 · 0 评论 -
【机器学习算法】之logistic回归
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:logistic回归算法的实现程序:from numpy import *from sklearn import preprocessing from sklearn import cross_validation def load_data_set(原创 2016-03-05 15:27:08 · 774 阅读 · 0 评论 -
【Kaggle练习赛】之Titanic: Machine Learning from Disaster
一.题目描述The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out原创 2016-01-20 17:21:21 · 1967 阅读 · 0 评论 -
【机器学习算法】之KNN算法的实现
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:knn类的实现程序:import numpy as np import pandas as pd import random as rd import csvfrom sklearn import preprocessingclass knn:原创 2016-02-26 16:51:06 · 800 阅读 · 0 评论 -
【数据挖掘实战】之天猫移动推荐比赛
前言:去年曾经参加过天猫移动推荐比赛。但是当时报名之后实验室安排了其他的新任务,导致这个比赛只是在最后几天粗略的做了一下,然后也只提交了一次结果。没能好好地做这个比赛也是我的一个遗憾。现在回过头来再尝试去做这个比赛,就当练练手了。一.基本思路题目的训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)原创 2016-02-23 21:20:06 · 1508 阅读 · 0 评论 -
【机器学习算法】之Apriori
一.算法介绍Apriori算法不同于以前接触过的机器学习算法,这种算法用于在数据集中寻找有趣的关系。这些关系可以有两种形式:频繁项集或者关联规则。 关于算法的详细介绍参见: http://blog.csdn.net/qustdjx/article/details/12770883 http://blog.csdn.net/yangliuy/article/details/7494983二.py原创 2016-01-18 16:18:21 · 497 阅读 · 0 评论 -
【机器学习算法】之logistic回归
一.算法介绍还是那句话:统计学习=模型+策略+算法 1.模型 logistic模型是对条件概率进行了建模: 虽然叫做logistic回归,但实际上解决的是基本的二分类问题,因此可以建立上述的条件概率模型。 这里利用了sigmoid函数的特性,比之线性模型,应当是一个更加合理的模型2.策略 在建立好概率模型之后,本算法使用的策略是最大似然法则,同样可以理解成最小经验风险准则。给定一个原创 2015-10-31 11:35:08 · 692 阅读 · 0 评论 -
【机器学习算法】之朴素贝叶斯
一.朴素贝叶斯算法介绍关于本算法通俗的介绍可参考: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html我对朴素贝叶斯方法的理解: 统计学习=模型+策略+算法 1.模型: 朴素贝叶斯是一种生成式的学习算法,它致力于学习p(x,y),即输入向量和输出label的联合分布。原创 2015-10-27 15:33:30 · 547 阅读 · 0 评论 -
机器学习笔记(一)
机器学习笔记(1,2课)一.线性回归模型 1.数学模型 对于一个具体的问题,x1,x2….是我们所选取的特征,h(x)是我们所建立的模型,其中有n 1个参数。 我们希望所建立的数学模型可以很好的刻画实际问题,而我们所拥有的就是训练数据集。很自然的,我们希望数学模型可以较好的表述训练数据集的情况。虽然对训练数据的拟合情况好不一定就意味着能够很好的预测未知,但是如果对训练数据预测性能很差,那么原创 2015-02-11 09:08:29 · 644 阅读 · 0 评论 -
机器学习笔记(二)
机器学习笔记(2,3课)一.线性回归的概率解释 1.数学模型 我们的目的是较好的拟合x,y之间的关系,但是实际上我们并不知道x,y之间的具体关系,而且这种关系也很难用精确的数学公式去表达。因此,引入误差项,这样上式就是合理而且精确的表达。 然后,继续假定 按照我的理解,这个假定就不具有一般性了。根据中心极限定理,符合高斯分布是合理的,但是并不一定是均值为0的高斯分布,方差也不一定是原创 2015-02-12 08:39:08 · 793 阅读 · 0 评论 -
机器学习笔记(三)
机器学习笔记三(5课) 一.生成式学习算法与判别式学习算法 1.判别式学习算法 直接对P(y|x)建模,得到参数模型,然后用最大似然法求解得到具体的参数。 2.生成式学习算法 对p(x|y),p(y)进行建模,得到参数模型,然后利用p(x,y)写出似然表达式,再用最大似然求得参数。最后利用得到p(y|x)。 这两种学习算法的最终目的都是求解出p(y|x)的合理表达。 二.高斯判别分析算原创 2015-02-14 10:43:26 · 545 阅读 · 0 评论 -
Caffe之mnist demo的配置和运行
在前期编译好Caffe之后,下一步就是要实际的跑一下demo。Caffe-windows版本里面是提供了多个CV领域的经典实例,我是先跑了一下mnist这个demo。下面具体的说一下。一.数据集的获取和处理Caffe需要leveldb格式的数据,因此需要先把从网上下的mnist数据集转换成leveldb格式。我的Caffe-windows版本里面是提供了转换好的level-db格式的数据集原创 2015-09-10 21:30:40 · 1585 阅读 · 0 评论 -
Windows下R-CNN 配置与demo运行
《Rich feature hierarchies for accurate object detection and semantic segmentation》是第一篇将深度CNN用于目标检测的文章,以后CNN应当会成为object detection领域的重要方法。在配置好caffe之后,先来跑一跑r-cnn的demo,之后会仔细研读这篇文章和做一些记录。一.R-CNN源码下载 文章里面给出原创 2015-09-13 23:05:49 · 3661 阅读 · 3 评论 -
CNN for Visual Recognition 学习笔记
之前是跟着博客学习CNN的基础知识,有点杂乱。现在跟着斯坦福的笔记教程 http://cs231n.github.io/convolutional-networks/ 系统性的回顾了一下CNN的知识,现在记录下学习笔记。说到CNN,最经典的结构当属LeNet5,现在就以下图为例来分析CNN的结构LeNet5的网络结构如下所示: Input–>Conv1–>Pool1–>Conv2–>Pool2–原创 2015-09-13 22:35:21 · 1253 阅读 · 0 评论 -
非最大抑制(Non-maximum suppression)
最近在一个项目,需要用到非极大值抑制,找了很长时间没有找到非极大值抑制在物体检测方面的的详细解释,最后只有翻阅相关的代码来理解。一、Nms主要目的 在物体检测非极大值抑制应用十分广泛,主要目的是为了消除多余的框,找到最佳的物体检测的位置。如上图中:虽然几个框都检测到了人脸,但是我不需要这么多的框,我需要找到一个最能表达人脸的框。下图汽车转载 2015-09-13 15:18:38 · 1695 阅读 · 0 评论 -
在Caffe上利用自己的数据集进行微调
参照http://blog.csdn.net/u012878523/article/details/41698209的说明,完成了在caffe上利用自己的数据集进行微调,现在将整个过程记录如下。一.准备数据集 1.准备原始数据集 数据集中包括训练集和测试集。我是在caffe-windows主目录下新建了lp文件夹,里面有train和val两个文件夹。train里面又有pos_train和原创 2015-10-16 22:16:38 · 5508 阅读 · 0 评论 -
Shark机器学习库安装过程记录
今天装了一下Shark这个基于C++的机器学习库,现在把安装过程记录如下: 参考博客:http://blog.csdn.net/hitwengqi/article/details/8990384 一.需要的工具 WIN 64位 VS2012 CMake最新版3.4.0二.安装过程 1.下载Shark的工程 下载地址:https://sourceforge.net/projects/sh原创 2015-10-21 20:35:06 · 3091 阅读 · 1 评论 -
【机器学习算法源码阅读】之KNN算法
前言:之前学过统计学习这门课,基本上是了解过主流的机器学习算法。但是一直没有自己从程序的角度去深入理解它们。现在准备阅读相关算法的实现源码来进一步理解这些算法。 参考资料:python《机器学习实战》 C++ Shark开源库源码一.KNN算法原理 KNN算法可以视为是最简单的分类算法。它是一种Lazy learning,并不需要训练出来实际的数学模型原创 2015-10-22 14:59:55 · 920 阅读 · 0 评论 -
【机器学习算法】之决策树
一.决策树算法简介《统计学习方法》书中提到:统计学习=模型+策略+算法。接下来对于每个机器学习的算法,我都尝试从模型,策略,算法三个角度进行归纳。针对决策树算法: 1.模型 决策树算法实质上是从训练数据集中归纳出一组分类规则,也可以理解为对特征空间(超平面)的一种线性划分。决策树算法并没有一个参数化的模型,但是拥有条件概率的解释。如下图所示: 2.策略 由于决策树模型并没有一个参数化的模原创 2015-10-25 20:55:32 · 756 阅读 · 0 评论 -
Windows下编译Caffe并编译Matlab接口
一直嫌麻烦没去装caffe,近日抽时间装好了Caffe,并且编译好了C++,Matlab的接口,现在把安装过程记录如下:一,安装环境Win7 64位VS2012Matlab R2012bCUDA 6.5二.安装步骤1.Caffe 源程序由于我是在windows环境下安装Caffe,所以是无法直接用原版的Caffe的。我是从CSDN上下载了已经预装好诸多第三方库的一个原创 2015-09-07 16:51:20 · 2708 阅读 · 2 评论 -
【机器学习算法】之决策树算法的实现
为了加深对机器学习算法的理解,以及熟悉python,pandas,scikit-learn。现在自己实现一下主要的机器学习算法,程序记录如下:决策树类的实现程序:import numpy as np import pandas as pd import random as rd import re from sklearn import tree from sklearn imp原创 2016-02-29 19:53:05 · 542 阅读 · 0 评论