![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习个人笔记
lzher0
这个作者很懒,什么都没留下…
展开
-
主成分分析算法
主成分分析(PCA)是最常见的降维方法,其主要是找到一个方向向量,当我们把所有数据都投影到方向向量上时,希望投射平均均方误差尽可能地小。该方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。PCA从n维减少到k维的过程:1、均值归一化。需要计算所有特征的均值,然后令Xj = Xj -μj 。如果特征是在不同的数量级上,还需要将其除以标准差。2、计算协方差矩阵:3、计算协方...原创 2018-05-17 17:09:28 · 811 阅读 · 0 评论 -
机器学习实战 第七章 adaBoostTrainDs函数报错TypeError: max() got an unexpected keyword argument 'fill_value'
源码:# 基于单层决策树的AdaBoost训练过程def adaBoostTrainDS(dataArr, classLabels, numIt=40): weakClassArr = [] m = shape(dataArr)[0] D = mat(ones((m, 1)) / m) aggClassEst = mat(zeros((m, 1))) ...原创 2018-11-16 15:45:56 · 2644 阅读 · 0 评论 -
sklearn中的pipeline的用法总结
Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处:1、直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。2、可以结合grid search对参数进行选择。from sklearn.pipeline import Pipelinepipsline = Pipeli...原创 2018-09-07 17:05:59 · 8844 阅读 · 1 评论 -
谷歌cola上加载谷歌云盘文件
https://mikulskibartosz.name/how-to-load-data-from-google-drive-to-pandas-running-in-google-colaboratory-a7f6a033c9971、使用下面代码,安装必要的文件!pip install -U -q PyDrivefrom pydrive.auth import GoogleAuth...原创 2018-09-06 10:56:57 · 1645 阅读 · 0 评论 -
谷歌GPU服务器关联谷歌硬盘
1、打开谷歌云端硬盘网址:https://colab.research.google.com2、新建一个python记事本后,输入下面代码:!apt-get install -y -qq software-properties-common python-software-properties module-init-tools !add-apt-repository -y ppa...原创 2018-09-04 15:34:25 · 286 阅读 · 0 评论 -
逻辑回归模型和支持向量机模型选择原则
从逻辑回归模型可以得到,支持向量机(SVM)模型,下面是一些普遍使用的准则:n为特征数,m为训练样本数。1、如果相较于m而言,n要大许多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机2、如果n比较小,而且m大小中等,例如n在1-1000之间,而m在10-100000之间,使用高斯核函数的支持向量机。3、如果n比较小,而m较大,例如n在1-100...原创 2018-05-16 22:23:51 · 2165 阅读 · 0 评论 -
机器学习笔记——模型选择和交叉验证集
通常为了选择能适应一般情况的模型,需要使用交叉验证集来帮助选择模型。即,使用60%的数据作为训练集,使用20%的数据作为交叉验证集,使用20%的数据作为测试集。模型的选择方法为:1、使用训练集训练出10 个模型2、用10个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)3、选取代价函数值最小的模型4、用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)...原创 2018-05-16 14:57:02 · 947 阅读 · 0 评论 -
机器学习中使用神经网络的步骤
使用神经网络时的步骤:网络结构:第一件要做的事是选择网络结构,即决定选择多少层以及决定每层分别有多少个单元。第一层的单元数是我们训练集的特征数量。最后一层的单元数是我们训练集的结果的类的数量。如果隐藏层数大于1,确保每个隐藏层的单元个数相同,通常情况下隐藏层单元的个数越多越好。而我们真正要决定的是隐藏层的层数和每个中间层的单元数。训练神经网络的步骤:1、参数的随机初始化2、利用正向传播方法计算所有...原创 2018-05-16 09:52:55 · 290 阅读 · 0 评论 -
机器学习中,发生过拟合的问题的两条处理方法
1、丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA)2、正则化。保留所有的特征,但是减少参数的大小(magnitude)。...原创 2018-05-16 09:36:34 · 252 阅读 · 0 评论 -
改进机器学习算法性能的几条途径
获得更多的训练实例,通常来说是有效的,但代价比较大,以下是几种可以先考虑的方法:1、在过拟合的情况下,可以尝试减少特征的数量。2、在欠拟合的情况下,可以尝试获得更多的特征。3、尝试增加多项式特征。4、尝试减少正则化程度λ。5、尝试增加正则化程度λ。...原创 2018-05-16 09:33:35 · 958 阅读 · 0 评论 -
解决TensorFlow GPU版出现OOM错误
问题:在使用mask_rcnn预测自己的数据集时,会出现下面错误:ResourceExhaustedError: OOM when allocating tensor with shape[1,512,1120,1120] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_b...原创 2018-11-29 16:29:40 · 23388 阅读 · 4 评论