机器学习
文章平均质量分 80
口袋的天空Zard
大数据架构,数据挖掘,机器学习
展开
-
机器学习笔记(1)——线性回归LinearRegression(单变量线性回归)
线性回归LinearRegression单变量线性回归实战:根据城市人口预测某行业利润1.需要导入的python包:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression #线性回归,安装转载 2017-07-28 00:37:38 · 3476 阅读 · 0 评论 -
tensorflow项目学习(1)——训练自己的数据集并进行物体检测(object detection)
Tensorflow Object Detection前言 本文主要介绍如何利用官方库tensorflow/models/research/objection 并通过faster rcnn resnet 101(以及其他)深度学习框架 训练自己的数据集,并对训练结果进行检测和评估准备工作1. 准备自己的数据集数据集文件目录如下datas原创 2018-02-03 02:11:04 · 7857 阅读 · 10 评论 -
机器学习笔记(14)——sklearn降维方法举例(RandomProjection,TSVD,t-SNE)
sklearn降维方法举例以datasets.digits数据为例导入相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport timefrom sklearn.datasets import load_digits大样本数据的可视化是一个相对比较麻烦的事情,一原创 2017-08-28 17:45:23 · 22095 阅读 · 0 评论 -
机器学习笔记(13)——PCA主成分分析
PCA主成分分析1.概念PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。很多机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。当然,这里区区五维的数据,也许还无所谓,但是实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,在这种情况下,机器学习的资源消耗是不可接受的,因此我们必须对数据进转载 2017-08-16 16:30:29 · 1936 阅读 · 0 评论 -
机器学习笔记(12)——Stacking(Stacked generalization)
Stacking (Stacked generalization)1.概念指训练一个模型用于组合(combine)其他各个模型。即首先我们先训练多个不同的模型,然后再以之前训练的各个模型的输出为输入来训练一个模型,以得到一个最终的输出。理论上,Stacking可以表示上面提到的各种Ensemble方法。然而,实际中,我们通常使用单层logistic回归作为组合模型。原创 2017-08-12 14:40:52 · 4268 阅读 · 0 评论 -
机器学习笔记(11)——ROC曲线与AUC
ROC(Receiver Operating Characteristic)AUC(Area Under Curve)ROC与AUC常用来评价一个二值分类器(binary classifier)的优劣1.ROC曲线:只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及ROC和AUC。下图是一个ROC曲线的转载 2017-08-11 19:58:08 · 5885 阅读 · 0 评论 -
机器学习笔记(10)——Adaboost算法
Adaboost算法1.概念这就是Adaboost的结构,最后的分类器YM" role="presentation">YMYMY_M是由数个弱分类器(weak classifier)组合而成的,相当于最后m个弱分类器来投票决定分类,而且每个弱分类器的“话语权”α不一样。1.初始化所有训练样例的权重为w1i=1N" role="presentation">w1i=1Nw1原创 2017-08-11 11:15:19 · 682 阅读 · 0 评论 -
机器学习笔记(9)——随机森林算法(RandomForest,RF)
随机森林算法RandomForest1.概念随机森林算法把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元共线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。2.优缺点RF的主要优点有:转载 2017-08-08 17:40:40 · 13140 阅读 · 0 评论 -
机器学习笔记(8)——集成学习之Bootstrap aggregating(Bagging)装袋算法
Bootstrap aggregating自举汇聚法Bagging装袋法1.概念是一种在原始数据集上通过有放回抽样重新选出S个新数据集来训练分类器的集成技术。也就是说这些新数据集是允许重复的。使用训练出来的分类器集合来对新样本进行分类,然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果,结果最高的类别即为最终标签。为了提高模型的方差(variance, 差原创 2017-08-06 22:56:07 · 19084 阅读 · 0 评论 -
机器学习笔记(7)——集成学习(Ensemble Learning)
集成学习Ensemble Learning1.概念集成学习是指将若干弱分类器组合之后产生一个强分类器。弱分类器(weak learner)指那些分类准确率只稍好于随机猜测的分类器(error rate 集成算法成功的关键在于能保证弱分类器的多样性(diversity)。集成不稳定的学习算法能得到更明显的性能提升。Ensemble方法也比单一模型更容易过拟合。转载 2017-08-06 22:08:32 · 1454 阅读 · 0 评论 -
机器学习笔记(6)——利用sklearn库实现SVM
python scikit-learn库实现SVM1.SVC(Support Vector Classification)支持向量分类基于libsvm实现的(libsvm详情参考 或者百科),数据拟合的时间复杂度是数据样本的二次方,这使得他很难扩展到10000个数据集。当输入是多类别时(SVM最初是处理二分类问题的),通过一对一的方案解决,当然也有别的解决办法,比如原创 2017-08-05 16:02:23 · 3568 阅读 · 0 评论 -
机器学习笔记(5)——SMO优化算法(实现SVM)
SMO序列最小化优化算法Sequential minimal optimization优化目标是找到一组最优的αi*。一旦求出这些αi*,就很容易计算出权重向量w*和b,并得到分隔超平面了。1.坐标下降法求解下面问题在这里需要求解m个变量αi" role="presentation">αiαi\alpha_i一般来说是通过梯度下降(这里是求最大转载 2017-08-05 12:41:39 · 4298 阅读 · 0 评论 -
机器学习笔记(4)——支持向量机(SVM)
SVM 支持向量机SupportVectorMachine1. 概念SVM是个二分类的分类模型。也就是说,给定一个包含正例和反例(正样本点和负样本点)的样本集合,支持向量机的目的是寻找一个超平面来对样本进行分割,把样本中的正例和反例用超平面分开,但是不是简单地分看,其原则是使正例和反例之间的间隔最大。学习的目标是在特征空间中找到一个分类超平面wx+b=0,分类面由法向量w和转载 2017-08-04 10:51:28 · 2245 阅读 · 0 评论 -
机器学习笔记(3)——机器学习算法简介
机器学习算法MachineLearningAlgorithm1.机器学习问题角度分类:监督学习算法:机器学习中有一大部分的问题属于『监督学习』的范畴,简单口语化地说明,这类问题中,给定的训练样本中,每个样本的输入x都对应一个确定的结果y,我们需要训练出一个模型(数学上看是一个x→y的映射关系f),在未知的样本x′给定后,我们能对结果y′做出预测。这里的预测结果如果是离散值(很多转载 2017-07-30 14:20:00 · 501 阅读 · 0 评论 -
机器学习笔记(2)——逻辑回归LogisticRegression
逻辑回归LogisticRegression线性分类:根据成绩预测出学生是否Pass的决策边界1.前期import模块及设置import pandas as pdimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom scipy.optimize import mi转载 2017-07-28 22:31:23 · 1648 阅读 · 1 评论