机器学习与数据挖掘
文章平均质量分 75
_飞奔的蜗牛_
关注图像处理/机器视觉/机器学习/大数据 等领域
学海无涯,与时俱进。
展开
-
画图工具matplotlib简单实用--绘制散点图
python 中常用画图工具matplotlib.pyplot工具使用实验。代码:from sklearn.datasets.samples_generator import make_blobsimport matplotlib.pyplot as pltX, y = make_blobs(n_samples=100, centers=3, n_features=2,random_原创 2016-12-14 00:15:11 · 5604 阅读 · 0 评论 -
决策树
老生常谈,决策树的种类: ID3、C4.5 和CART,说说各自特点: ID3: 1986 Ross Quinlan提出,采用 熵不纯度规则分裂节点,通常分支因子Bj>2B_j>2,标准版本的ID3没有剪枝操作。 C4.5: 为ID3改进版本,特征值可以处理连续变量,采用信息熵增益比原创 2017-01-10 00:01:26 · 742 阅读 · 0 评论 -
Real adaboost
adaboost算法是boost算法的一种,它使用指数函数作为损失函数。 adaboost算法又要若干分支,包括DAB(Discrete AdaBoost),RAB(Real AdaBoost),LB(LogitBoost),GAB(Gentle AdaBoost)。这些算法在opencv 中均有所实现。其中,最为人们所熟知的当属经典adaboost算法,即离散adaboost,此处不展开,请原创 2017-01-31 20:27:09 · 2855 阅读 · 0 评论 -
Gentle adaboost解释
1 算法原理1.1 Gentle adaboost 参考文献:《Additive Logistic Regression: a Statistical View of Boosting》 1.2 算法实现2 参考《基于Gentle Adaboost的行人检测》 实现Gentle Adaboost的关键是要能估计出后验概率,即给定特征向量xx的情况下,估计出当前权值分布下的该样本正样本的原创 2017-02-02 16:57:16 · 5270 阅读 · 0 评论 -
spark之MLlib机器学习-线性回归
此篇博文根据《Spark MLlib机器学习》实例程序编写,可作为熟悉scala和mllib编写机器学习算法的一种实践。 1、准备测试数据 可从作者博客自行下载。代码及数据下载地址 2、编写scala源码 为了进一步熟悉scala编程语言,建议自己把代码敲一次。//import org.apache.log4j{ Level, Logger }import org.apac原创 2017-03-19 23:32:06 · 965 阅读 · 0 评论 -
Spark之训练分类模型练习(1)
()本博文为 spark机器学习 第5章学习笔记。 所用数据下载地址为:实验数据集train.tsv各列的数据意义为: “url” “urlid” “boilerplate” “alchemy_category” “alchemy_category_score” “avglinksize” “commonlinkratio_1” “commonli原创 2017-03-25 16:13:25 · 4635 阅读 · 0 评论 -
Spark之训练分类模型练习(2)
上接博文。1 改进模型及参数调优1.1 数值特征标准化使用RowMatrix类计算列的统计量。每一行为某一样本的特征向量import org.apache.spark.mllib.linalg.distributed.RowMatrixval vectors = data.map(lp => lp.features)val matrix = new RowMatrix(vectors)val原创 2017-03-28 23:15:24 · 1760 阅读 · 0 评论 -
Spark之python版机器学习算法--ipython notebook配置及测试
先说明一下我的环境配置: 操作系统:ubuntu14.04 64bit spark2.0.0 hadoop 2.7.1 scala-2.11.8 python 2.7.6 java1.7.01. 安装 ipython notebook安装步骤:1安装pip工具sudo apt-get install python-pip2 安装ipythonsudo apt-ge原创 2017-03-21 23:09:53 · 1849 阅读 · 0 评论 -
matcaffe 使用中,matlab直接错误退出问题
1、首先需要配置matlab接口环境,并定义是否开启GPU加速 caffe.set_mode_gpu(); %GPU加速模式 caffe.set_mode_cpu(); %CPU加速模式 如果没有配置成功,则会报错:无法找到caffe_2、加载训练好的模型 net = caffe.Net(net_model,weight,’test’) net_model 通常为deploy.prot原创 2017-04-06 23:29:59 · 4300 阅读 · 4 评论 -
caffe权值及featureMap可视化
1、权值可视化主函数 conv1_weights_vis.m,放在caffe根目录,需要matcaffeclear;clc;close all;addpath('matlab')caffe.set_mode_cpu();fprintf(['Caffe Version = ', caffe.version(), '\n']);net = caffe.Net('models/bvlc_refe转载 2017-04-05 21:07:38 · 3507 阅读 · 0 评论 -
UCI 数据集
filename='.\iris\iris.data';%使用 , 分割符分割每列数据; ‘'headerlines’:表示忽略前N行,从N+1行开始读取数据集[attrib1, attrib2, attrib3, attrib4, class] =textread(filename,'%f %f %f %f %s','delimiter',',','headerlines',1);num=len原创 2017-04-10 17:16:16 · 5708 阅读 · 0 评论 -
真正率-真负率
True Positive (真正, TP)被模型预测为正的正样本;True Negative(真负 , TN)被模型预测为负的负样本 ;False Positive (假正, FP)被模型预测为正的负样本;False Negative(假负 , FN)被模型预测为负的正样本;True Positive Rate(真正率 , TPR)或灵敏度(sensitivity) TPR = TP /转载 2016-12-23 19:42:27 · 8514 阅读 · 0 评论 -
libcaffe Check failed: registry.count(type) == 1 (0 vs. 1) Unknown layer type: Input (known types: )
在用libcaffe.lib建立工程时,出现 Check failed: registry.count(type) == 1 (0 vs. 1) Unknown layer type: Input (known types: )错误,参考了两篇博文解决问题: 主要思想是增加 头文件,注册layer层。 http://blog.csdn.net/birdwcp/article/deta转载 2017-04-19 22:44:41 · 3477 阅读 · 5 评论 -
caffe深度学习-windows下绘制学习曲线
在windows下绘制学习曲线。1、获取训练日志文件1)设置好solver.prototxt ,train_test.prototxt等配置文件 2)建立批处理文件(.bat),将输出至屏幕的训练信息,重定性至文件。 train.bat 配置如下:e:cd E:\deeplerning\caffe\caffe-windows\My //转换至工作目录,日志文件将保存在此目录E:\de原创 2017-04-09 17:14:27 · 2858 阅读 · 0 评论 -
caffe源码学习(3)--卷积层
以手写字符集mnist为例介绍caffe卷积层的实现方式。1.卷积层C1 源码在卷积层类ConvolutionLayer中,batch(训练 64*3*28*28,测试 100*3*28*28)中每个样本循环调用前向运算ConvolutionLayer::Forward_cpu()函数计算featrue map。 函数源码如下:template <typename Dtype>void Co原创 2016-12-30 20:09:07 · 1086 阅读 · 1 评论 -
朴素贝叶斯分类-NB算法
今天学习NB(nave Bayes)算法.看看此算法是不是真NB。 朴素贝叶斯法基于两点:朴素贝叶斯定理特征条件独立假设学习方法及分类方法已知输入:含有NN个样本的训练集,T={(x(1),y(1)),(x(2),y(2)).....,(x(N),y(N))}T=\{{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}).....,(x^{(N)},y^{(N)})}\}原创 2017-01-06 17:39:50 · 1533 阅读 · 0 评论 -
模型评估-偏差bias和方差variance
1、 定义: 因变量(预测值):X自变量(特征值):Y且,假设,其中误差服从均值为0的正态分布,我们用线性回归或者其他模型来估计为,则对于x来说,其误差为: (公式1) 用偏差和方差来表述:(公式2) 最后一项为噪声,是无法通过模型降低的。1.1 偏差Bias与方差Varianc转载 2016-12-12 10:53:05 · 9364 阅读 · 0 评论 -
机器学习算法--bagging算法
准备bagging算法内容。原创 2016-12-12 09:30:33 · 3727 阅读 · 0 评论 -
sklearn之样本生成(1)
机器学习、模式识别的目的就是从样本数据上自动建立数学模型,将模型用于新的数据以自动解决实际问题。因此,这里有两个东西是我们比较关心的,一个是模型,另外一个样本数据。现在很多文章都在讨论各种算法,大都可以归为模型的建立过程,今天,本博文讲另外一个重要组成部分,样本数据获取方法(以sklearn为工具)。通过Sklearn获取的样本数据格式有三种形式:1)图像样本格式2)样本数据自主生成格原创 2016-12-14 17:47:28 · 3841 阅读 · 0 评论 -
机器学习-随机森林
占坑原创 2016-12-13 00:12:03 · 333 阅读 · 0 评论 -
sklearn之样本生成(2)
上一篇《sklearn之样本生成(1)》主要讲make_blobs的使用方法。本文重点讲make_classification,make_gaussian_quantiles和make_hastie_10_2原创 2016-12-14 23:31:41 · 21612 阅读 · 0 评论 -
caffe源码学习(2)-softmax loss层
与softmax回归相关的caffe源码主要在如下两个文件中:softmax_loss_layer.cpp和softmax_layer.cpp。 softmax_loss_layer.cpp 前向计算后向计算://softmax_loss_layer.cpp 前向计算后向计算template <typename Dtype>void SoftmaxWithLossLayer<Dtype>::原创 2016-12-29 10:56:32 · 2133 阅读 · 0 评论 -
opencv中adaboost训练算法分析
0、概述 opencv集成了经典adaboost算法,并结合haar特征实现了人脸检测功能。算法原理可参考人脸检测大牛Paul Viola 的文章《Rapid Object Detection using a Boosted Cascade of Simple Feature》。由于该算法堪称经典,并可推广应用于其他相关检测识别领域(如车牌检测、车辆检测识别),因此有必要从源码上学习其实现过程。人原创 2016-12-20 22:13:34 · 2210 阅读 · 0 评论 -
sklearn单机特征工程
转自:http://www.cnblogs.com/jasonfreak/p/5448385.html 感谢作者分享。1 特征工程是什么 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度的从原始数据集中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括一下方面:转载 2016-12-23 22:59:37 · 761 阅读 · 0 评论 -
指数族分布-广义线性模型--softmax关系
0 引言 由于要学习softmax回归,所以探究了一下softmax的推导过程。期间主要参考了一些博客和Andrew Ng 机器学习课程,在此一并感谢大家的无私与慷慨。要想明白softmax回归,需先搞清楚广义线性模型GLM,要想明白GLM又要先知道指数族分布,下面详细解释一下三者之间的关系。1 指数族分布(The exponential family) 指数族分布是指可以表示为指数形式的概率转载 2016-12-18 17:06:24 · 2631 阅读 · 0 评论 -
稀疏自编码
稀疏编码代价函数JJ,给定一个包含mm个样例的数据集,代价函数为: Jsparse(W,b)=[1m∑i=1m(12∥∥hW,b(x(i))−y(i)∥∥2)]+λ2∑l=1nl−1∑i=1sl∑j=1sl+1(Wlji)2+β∑j=1s2KL(ρ||ρ^) J_{sparse}(W,b)=[\frac{1}{m}\sum_{i=1}^{m}(\frac{1}{2}\left \| h_{W,b转载 2016-12-25 21:46:40 · 792 阅读 · 0 评论 -
bsxfun函数-matlab
调用格式: c=bsxfun(fun,A,B)c=bsxfun(fun,A,B) matlab文档定义:实现阵列元素和元素之间func操作,一定情况下可以某维度实现自动展开。 @plus@plus @minus @times @rdivide @ldivide @power @max @min @rem @mod @atan2 @atan2d @hypot @eq原创 2016-12-28 11:33:01 · 453 阅读 · 0 评论 -
softmax-练习(UFLDL)
UFLDL-softmax章节详细推导了算法原理。最终凝结为两个重要公式: 损失函数和参数梯度求导公式: 主要代码如下: softmaxExercise.mfunction [cost, grad] = softmaxCost(theta, numClasses, inputSize, lambda, data, labels)% numClasses - the number of cl原创 2016-12-28 15:34:42 · 750 阅读 · 0 评论 -
机器学习-矩阵向量求导
参考博客: http://blog.csdn.net/nomadlx53/article/details/50849941 参考维基百科: https://en.wikipedia.org/wiki/Matrix_calculus#Scalar-by-vector_identities上述维基百科关于矩阵、向量求导描述的最清楚明了。其中,有个重要概念(Layout conventions) 布原创 2017-08-27 12:17:40 · 5900 阅读 · 0 评论